論文の概要: The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
- arxiv url: http://arxiv.org/abs/2601.08173v1
- Date: Tue, 13 Jan 2026 03:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.03706
- Title: The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
- Title(参考訳): エージェントの初日:職場シナリオにおける学習のベンチマーク、探索、スケジューリング
- Authors: Daocheng Fu, Jianbiao Mei, Rong Wu, Xuemeng Yang, Jia Xu, Ding Wang, Pinlong Cai, Yong Liu, Licheng Wen, Botian Shi,
- Abstract要約: 本稿では,新しい環境を継続的に探索する「訓練」エージェントをシミュレートする動的評価環境である方法を紹介する。
従来のベンチマークとは違って,(1)優先度の異なるストリーミングタスクのコンテキストアウェアスケジューリング,(2)能動的探索による幻覚の低減のための巧妙な情報取得,(3)規則に基づく動的生成タスクから一般化戦略を抽出した継続的進化,の3つの側面に沿ってエージェントを評価する。
私たちの研究は、エージェントの信頼性を評価するためのフレームワークを確立し、静的テストから現実的な実運用指向のシナリオに評価をシフトします。
- 参考スコア(独自算出の注目度): 34.25281365374991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly targets performance upper bounds in static environments, overlooking robustness for stochastic real-world deployment. We identify three key challenges: dynamic task scheduling, active exploration under uncertainty, and continuous learning from experience. To bridge this gap, we introduce \method{}, a dynamic evaluation environment that simulates a "trainee" agent continuously exploring a novel setting. Unlike traditional benchmarks, \method{} evaluates agents along three dimensions: (1) context-aware scheduling for streaming tasks with varying priorities; (2) prudent information acquisition to reduce hallucination via active exploration; and (3) continuous evolution by distilling generalized strategies from rule-based, dynamically generated tasks. Experiments show that cutting-edge agents have significant deficiencies in dynamic environments, especially in active exploration and continual learning. Our work establishes a framework for assessing agent reliability, shifting evaluation from static tests to realistic, production-oriented scenarios. Our codes are available at https://github.com/KnowledgeXLab/EvoEnv
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)の急速な進化により、ワークフローの自動化が進んでいるが、既存の研究は主に静的環境におけるパフォーマンス上の境界を目標にしており、確率的実世界の展開の堅牢性を見越している。
動的タスクスケジューリング、不確実性の下での積極的な探索、経験からの継続的学習の3つの主要な課題を特定します。
このギャップを埋めるために,新しい環境を継続的に探索する「訓練」エージェントをシミュレートする動的評価環境である 'method{} を導入する。
従来のベンチマークとは異なり、<method{} は、(1) 優先度の異なるストリーミングタスクのコンテキストアウェアなスケジューリング、(2) 能動的探索による幻覚を減らすための巧妙な情報取得、(3) ルールベースで動的に生成されたタスクから一般化された戦略を蒸留することによって連続的な進化、という3つの側面に沿ってエージェントを評価する。
実験により、最先端のエージェントは、特に活発な探索と継続的な学習において、動的環境に重大な欠陥があることが示されている。
私たちの研究は、エージェントの信頼性を評価するためのフレームワークを確立し、静的テストから現実的な実運用指向のシナリオに評価をシフトします。
私たちのコードはhttps://github.com/KnowledgeXLab/EvoEnvで利用可能です。
関連論文リスト
- CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL [35.086788669916594]
大規模言語モデルベースのエージェントは、複雑なツール拡張環境にますますデプロイされている。
既存のアプローチは通常、新しい環境で失敗する前提である事前定義されたタスクコレクションを仮定する。
そこで我々はCuESを提案する。CuESはキュリオシティ駆動環境基盤合成フレームワークで、多様で実行可能で有意義なタスクを自律的に生成する。
論文 参考訳(メタデータ) (2025-12-01T06:11:37Z) - Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-12T12:56:25Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (2025-10-09T17:59:17Z) - Building Self-Evolving Agents via Experience-Driven Lifelong Learning: A Framework and Benchmark [57.59000694149105]
本稿では、自己進化エージェントを構築するためのフレームワークである、経験駆動型生涯学習(ELL)を紹介する。
ELLは、Experience Exploration、Long-term Memory、Skill Learning、Knowledge Internalizationの4つのコア原則に基づいて構築されている。
また、学生の総合的な大学旅行をシミュレートするELLのベンチマークデータセットであるStuLifeを紹介した。
論文 参考訳(メタデータ) (2025-08-26T13:04:28Z) - Online Continual Learning For Interactive Instruction Following Agents [20.100312650193228]
このような学習シナリオは,ロボットエージェントが世界を探索し,知覚する上で,継続的に世界を学ぶことが求められているため,現実的ではない,と我々は主張する。
本研究では,新しい行動学習と新しい環境学習という,エンボディエージェントのための2つの連続学習環境を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:33:48Z) - Dynamic Regret Analysis for Online Meta-Learning [0.0]
オンラインメタ学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれてきた。
この定式化には、メタラーナーを学ぶ外部レベルと、タスク固有のモデルを学ぶ内部レベルという2つのレベルが含まれる。
グローバルな予測から環境の変化を扱う動的な後悔という観点から、パフォーマンスを確立します。
本稿では,本分析を1つの設定で実施し,各イテレーションの総数に依存する局所的局所的後悔の対数論的証明を期待する。
論文 参考訳(メタデータ) (2021-09-29T12:12:59Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。