論文の概要: Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey
- arxiv url: http://arxiv.org/abs/2511.09586v1
- Date: Fri, 14 Nov 2025 01:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.352387
- Title: Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey
- Title(参考訳): 相互作用から学ぶLLMエージェントのスケーリング環境:調査
- Authors: Yuchen Huang, Sijia Li, Minghao Liu, Wei Liu, Shijue Huang, Zhiyuan Fan, Hou Pong Chan, Yi R. Fung,
- Abstract要約: エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
- 参考スコア(独自算出の注目度): 30.673419015614233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents can autonomously accomplish complex tasks across various domains. However, to further cultivate capabilities such as adaptive behavior and long-term decision-making, training on static datasets built from human-level knowledge is insufficient. These datasets are costly to construct and lack both dynamism and realism. A growing consensus is that agents should instead interact directly with environments and learn from experience through reinforcement learning. We formalize this iterative process as the Generation-Execution-Feedback (GEF) loop, where environments generate tasks to challenge agents, return observations in response to agents' actions during task execution, and provide evaluative feedback on rollouts for subsequent learning. Under this paradigm, environments function as indispensable producers of experiential data, highlighting the need to scale them toward greater complexity, realism, and interactivity. In this survey, we systematically review representative methods for environment scaling from a pioneering environment-centric perspective and organize them along the stages of the GEF loop, namely task generation, task execution, and feedback. We further analyze benchmarks, implementation strategies, and applications, consolidating fragmented advances and outlining future research directions for agent intelligence.
- Abstract(参考訳): LLMベースのエージェントは、様々な領域にわたる複雑なタスクを自律的に達成することができる。
しかし、適応行動や長期的な意思決定などの能力をさらに育成するためには、人間レベルの知識から構築された静的データセットのトレーニングは不十分である。
これらのデータセットは、ダイナミズムとリアリズムの両方を構築し、欠落させるのに費用がかかる。
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、それらをより複雑な、現実主義、対話性へと拡張する必要性を強調している。
本研究では,環境中心の視点から環境スケーリングの代表的手法を体系的に検討し,GEFループの段階(タスク生成,タスク実行,フィードバック)に沿ってそれらを整理する。
さらに、ベンチマーク、実装戦略、アプリケーションを分析し、断片化された進歩を統合し、エージェントインテリジェンスの今後の研究方向性を概説する。
関連論文リスト
- Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments [33.83610929282721]
Learn-by-interactは、大規模な言語モデル(LLM)を人間のアノテーションなしで任意の環境に適用するための、データ中心のフレームワークである。
我々は、トレーニングベースのシナリオとトレーニング不要なインコンテキスト学習(ICL)の両方でそれらを用いて、合成データの質を評価する。
SWE-bench、WebArena、OSWorld、Spider2-Vが現実的なコーディング、Web、デスクトップ環境にまたがる実験は、Learning-by-interactの有効性を示している。
論文 参考訳(メタデータ) (2025-01-18T22:34:41Z) - Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG [0.8463972278020965]
大規模言語モデル(LLM)は、人間のようなテキスト生成や自然言語理解を可能にすることによって、人工知能(AI)に革命をもたらした。
Retrieval Augmented Generation (RAG) がソリューションとして登場し、リアルタイムデータ検索を統合して文脈に関連のある応答を提供することでLLMを強化している。
Agentic Retrieval-Augmented Generation (RAG)は、自律的なAIエージェントをRAGパイプラインに埋め込むことによって、これらの制限を超越する。
論文 参考訳(メタデータ) (2025-01-15T20:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。