論文の概要: COMPASS: Enhancing Agent Long-Horizon Reasoning with Evolving Context
- arxiv url: http://arxiv.org/abs/2510.08790v1
- Date: Thu, 09 Oct 2025 20:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.699301
- Title: COMPASS: Enhancing Agent Long-Horizon Reasoning with Evolving Context
- Title(参考訳): CompASS: 進化するコンテキストによるロングホライズン推論の促進
- Authors: Guangya Wan, Mingyang Ling, Xiaoqi Ren, Rujun Han, Sheng Li, Zizhao Zhang,
- Abstract要約: 小さなエラーはステップにまたがって複雑で、最先端のモデルでさえしばしばコヒーレンスを幻覚または失う。
本稿では,戦術的実行,戦略的監視,文脈的組織を3つの特殊コンポーネントに分離する軽量階層型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.575806280348797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon tasks that require sustained reasoning and multiple tool interactions remain challenging for LLM agents: small errors compound across steps, and even state-of-the-art models often hallucinate or lose coherence. We identify context management as the central bottleneck -- extended histories cause agents to overlook critical evidence or become distracted by irrelevant information, thus failing to replan or reflect from previous mistakes. To address this, we propose COMPASS (Context-Organized Multi-Agent Planning and Strategy System), a lightweight hierarchical framework that separates tactical execution, strategic oversight, and context organization into three specialized components: (1) a Main Agent that performs reasoning and tool use, (2) a Meta-Thinker that monitors progress and issues strategic interventions, and (3) a Context Manager that maintains concise, relevant progress briefs for different reasoning stages. Across three challenging benchmarks -- GAIA, BrowseComp, and Humanity's Last Exam -- COMPASS improves accuracy by up to 20% relative to both single- and multi-agent baselines. We further introduce a test-time scaling extension that elevates performance to match established DeepResearch agents, and a post-training pipeline that delegates context management to smaller models for enhanced efficiency.
- Abstract(参考訳): 持続的推論と複数のツールの相互作用を必要とする長期水平タスクは、LLMエージェントにとって依然として困難な課題である: ステップ間で小さなエラーが複雑になり、最先端のモデルでさえ、しばしばコヒーレンスを幻覚または失う。
私たちは、コンテキスト管理が中心的なボトルネックであると認識します -- 拡張された歴史は、エージェントが重要な証拠を見落としたり、無関係な情報に気を散らしたりし、以前のミスを計画したり、反映したりするのに失敗します。
これを解決するために, 戦略実行, 戦略監視, 文脈組織を3つの特別な構成要素に分けた軽量な階層的枠組みであるCompASS (Context-Organized Multi-Agent Planning and Strategy System) を提案する。
GAIA(GAIA)、BrowseComp(BrowseComp)、Humanity(Humanity)のLast Exam(Last Exam)の3つの挑戦的なベンチマークで、CompASSはシングルエージェントベースラインとマルチエージェントベースラインの両方と比較して、最大20%の精度向上を実現している。
さらに、確立したDeepResearchエージェントにマッチするパフォーマンスを向上するテストタイムスケーリング拡張と、コンテキスト管理をより小さなモデルに委譲して効率を向上するポストトレーニングパイプラインも導入する。
関連論文リスト
- Reasoning-Aware Prompt Orchestration: A Foundation Model for Multi-Agent Language Model Coordination [0.0]
複数の特殊エージェント間の推論を強化する動的プロンプトオーケストレーションのための理論的基盤となるフレームワークを提案する。
このフレームワークは,エージェント移行時の論理的一貫性の維持,推論対応の迅速な適応,分散推論のスケーラブルな調整,という3つの課題に対処する。
1000件の合成マルチエージェント会話実験の結果,推論遅延の42%低減,ROUGE-Lスコアによる論理的整合性の23%改善,文脈損失のないタスク完了の89%の成功率が確認された。
論文 参考訳(メタデータ) (2025-09-30T22:33:01Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research [32.92036657863354]
大規模言語モデル(LLM)を利用した言語エージェントは、複雑なタスクの理解、推論、実行において顕著な能力を示した。
しかし、堅牢なエージェントの開発には、相当なエンジニアリングオーバーヘッド、標準化されたコンポーネントの欠如、公正な比較のための十分な評価フレームワークなど、大きな課題がある。
我々はこれらの課題に対処するフレキシブルで抽象的なフレームワークであるAGORA(Agent Graph-based Orchestration for Reasoning and Assessment)を紹介した。
論文 参考訳(メタデータ) (2025-05-30T08:46:23Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Self-Taught Agentic Long Context Understanding [47.186303525057475]
AgenticLUは、ターゲットの自己明確化と文脈的接地を統合するために設計されたフレームワークである。
AgenticLUはNarrativeQAで97.8%の回答リコールを達成し、検索深度は最大3、分岐係数は8である。
論文 参考訳(メタデータ) (2025-02-21T20:29:36Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。