論文の概要: Scaling Long-Horizon LLM Agent via Context-Folding
- arxiv url: http://arxiv.org/abs/2510.11967v1
- Date: Mon, 13 Oct 2025 22:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.102867
- Title: Scaling Long-Horizon LLM Agent via Context-Folding
- Title(参考訳): コンテキストフォールディングによる長軸LLMエージェントのスケーリング
- Authors: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen,
- Abstract要約: エージェントが作業コンテキストを積極的に管理することを可能にするフレームワークであるContext-Foldingを紹介します。
エージェントは、サブトラックに手続き的に分岐してサブタスクを処理し、完了時に折り畳み、結果の簡潔な要約を保持しながら中間ステップを崩壊させる。
- 参考スコア(独自算出の注目度): 46.685552398338295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents are fundamentally constrained by context length on long-horizon tasks. We introduce Context-Folding, a framework that empowers agents to actively manage their working context. An agent can procedurally branch into a sub-trajectory to handle a subtask and then fold it upon completion, collapsing the intermediate steps while retaining a concise summary of the outcome. To make this behavior learnable, we develop an end-to-end reinforcement learning framework FoldGRPO with specific process rewards to encourage effective task decomposition and context management. On complex long-horizon tasks (Deep Research and SWE), our folding agent matches or outperforms the ReAct baselines while using an active context 10$\times$ smaller and significantly outperforms models that rely on summarization-based context management.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、時間軸タスクのコンテキスト長によって基本的に制約される。
エージェントが作業コンテキストを積極的に管理することを可能にするフレームワークであるContext-Foldingを紹介します。
エージェントは、サブトラックに手続き的に分岐してサブタスクを処理し、完了時に折り畳み、結果の簡潔な要約を保持しながら中間ステップを崩壊させる。
この動作を学習可能にするため、効率的なタスク分解とコンテキスト管理を促進するために、特定のプロセス報酬を付与したエンドツーエンド強化学習フレームワークFoldGRPOを開発した。
複雑なロングホライズンタスク(ディープリサーチとSWE)では、我々の折りたたみエージェントは、10$\times$ のアクティブコンテキストを使いながらReActのベースラインにマッチするか、あるいは性能を上回ります。
関連論文リスト
- COMPASS: Enhancing Agent Long-Horizon Reasoning with Evolving Context [17.575806280348797]
小さなエラーはステップにまたがって複雑で、最先端のモデルでさえしばしばコヒーレンスを幻覚または失う。
本稿では,戦術的実行,戦略的監視,文脈的組織を3つの特殊コンポーネントに分離する軽量階層型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T20:14:26Z) - Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management [19.980762483472354]
要約に基づくコンテキスト管理をトレーニングに導入する。
UnderlineSUmmarization 拡張 UnderlinePolicy UnderlineOptimization (textttSUPO) でこのフレームワークをインスタンス化する。
本研究は,RLエージェントを一定の文脈長制限を超えて訓練するための原則的かつスケーラブルな手法として,要約に基づくコンテキスト管理を確立した。
論文 参考訳(メタデータ) (2025-10-08T07:29:22Z) - ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents [34.720205364467546]
音声テキストのインターリーブを支援する強化学習用サンドボックス環境(RL)を導入する。
我々の中核戦略であるTARL(Turn-level Adjudicated Reinforcement Learning)は、長期的タスクにおけるクレジット割り当ての課題に対処する。
この統一されたアプローチは、強いRLベースラインと比較してテキストベースの$tau$-benchのタスクパス率を6%以上向上させる。
論文 参考訳(メタデータ) (2025-09-17T23:25:00Z) - Chain of Agents: Large Language Models Collaborating on Long-Context Tasks [39.27648679819897]
CoA(Chain-of-Agents)は、自然言語によるマルチエージェントコラボレーションを利用して、情報集約とコンテキスト推論を可能にする新しいフレームワークである。
CoAは読み出しと推論をインターリーブすることで入力全体を処理し、各エージェントに短いコンテキストを割り当てることで、長いコンテキストのフォーカス問題を軽減します。
論文 参考訳(メタデータ) (2024-06-04T23:36:08Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。