論文の概要: ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2605.22102v1
- Date: Thu, 21 May 2026 07:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.53143
- Title: ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling
- Title(参考訳): ExComm: エラー耐性エージェントテストタイムスケーリングのための探索段階通信
- Authors: Woomin Song, Beomjun Kim, Daewon Choi, Sai Muralidhar Jayanthi, Saket Dingliwal, Jinwoo Shin, Aram Galstyan,
- Abstract要約: ExCommは、探索段階のエージェントテストタイムスケーリングのための通信プロトコルである。
ExCommは、強いテスト時間スケーリングベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 57.42714978834704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common failure mode in long-horizon agentic test-time scaling is error propagation, where factual errors or invalid deductions introduced at intermediate steps persist in the agent's belief state and contaminate later reasoning. Existing test-time scaling methods provide limited control over this process, as they often rely on agents to detect their own mistakes, select among flawed trajectories, or refine solutions only after errors have already shaped the reasoning path. We propose ExComm, a communication protocol for exploration-stage agentic test-time scaling. ExComm is motivated by the empirical observation that the majority of intermediate errors in parallel agentic reasoning produce detectable cross-agent factual conflicts. Leveraging the iterative structure of agentic workflows, ExComm periodically audits agent belief states to detect such conflicts, resolves them through a dedicated tool-based verification loop, and returns concise, targeted feedback to the involved agents. Corrections are incorporated through soft belief updates, which append verified feedback rather than overwriting existing beliefs. Furthermore, to prevent collapsing trajectory diversity due to communication, ExComm further introduces a trajectory diversification module that redirects redundant trajectories toward orthogonal strategies. Experiments on AIME 2024, AIME 2025, and GAIA with Gemini-2.5-Flash-Lite and Qwen3.5-4B show that ExComm consistently outperforms strong test-time scaling baselines, achieving average performance gains of 5.7% and 5.0% over the best-performing baselines, respectively. Further analyses demonstrate improved error recovery, favorable scaling behavior, stronger diversity than adapted communication baselines, and the best performance-cost trade-off among the evaluated methods.
- Abstract(参考訳): 長距離エージェントの試験時間スケーリングにおける一般的な障害モードはエラーの伝播であり、中間ステップで導入された事実的エラーや不正な推論がエージェントの信念状態に持続し、後続の推論を汚染する。
既存のテストタイムスケーリング手法は、しばしばエージェントに頼って自分自身の誤りを検出したり、欠陥のある軌跡を選択したり、エラーが既に推論経路を形成した後にのみソリューションを洗練したりするため、このプロセスの限定的な制御を提供する。
探索段階のエージェントテストタイムスケーリングのための通信プロトコルであるExCommを提案する。
ExCommは、並列エージェント推論における中間エラーの大部分が、検出可能なクロスエージェントの事実矛盾を生み出すという経験的観察に動機づけられている。
エージェントワークフローの反復的構造を活用して、ExCommはエージェントの信念状態を定期的に監査して、そのような矛盾を検出する。
訂正は、既存の信念を上書きするのではなく、検証済みのフィードバックを付加するソフトな信念更新によって行われる。
さらに、通信による折りたたみ軌跡の多様性を防止するため、ExCommはさらに、冗長軌跡を直交戦略にリダイレクトする軌跡多様化モジュールを導入している。
AIME 2024、AIME 2025、GAIAのGemini-2.5-Flash-Lite、Qwen3.5-4Bによる実験では、ExCommは一貫して強力なテスト時間スケーリングベースラインを上回り、最高のパフォーマンスベースラインよりも平均パフォーマンスが5.7%、パフォーマンスが5.0%向上した。
さらに, 誤り回復の改善, スケーリング行動の向上, 適応された通信ベースラインよりも多様性が強く, 評価手法の中でも最高の性能・コストトレードオフが示された。
関連論文リスト
- VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。
しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。
本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-17T14:09:35Z) - Affordance Agent Harness: Verification-Gated Skill Orchestration [45.231685718099264]
Affordance groundingは、オープンワールドのシーンでエージェントがどこでどのように対話すべきかを特定する必要がある。
本稿では,エビデンスストアとコストコントロールを備えたクローズドループランタイムであるAffordance Agent Harnessを提案する。
論文 参考訳(メタデータ) (2026-05-01T13:45:16Z) - Efficient Agent Evaluation via Diversity-Guided User Simulation [7.723545220477047]
DIVERTは、エージェント-ユーザインタラクションを体系的に探索するための、スナップショットベースの、カバレッジガイド付きユーザーシミュレーションフレームワークである。
重要な決定ポイントでエージェント環境の全状態をキャプチャし、これらのスナップショットから実行を再開する。
DIVERTは、意味的に多様性があり、探索されていない軌道に焦点を合わせることにより、効率とカバレッジの両方を改善している。
論文 参考訳(メタデータ) (2026-04-23T09:41:21Z) - Towards Self-Improving Error Diagnosis in Multi-Agent Systems [31.04613892300063]
セマンティック障害帰属のための自己改善フレームワークであるErrorProbeを紹介する。
ErrorProbeは、責任あるエージェントと発生したエラーステップを特定する。
検証されたエピソードメモリを維持しており、実行可能証拠によってエラーパターンが確認された場合にのみ更新される。
論文 参考訳(メタデータ) (2026-04-19T23:13:05Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - TRACER: Trajectory Risk Aggregation for Critical Episodes in Agentic Reasoning [4.928838343487574]
既存の不確実性プロキシは、シングルショットテキスト生成に重点を置いている。
本稿では,マルチコントロールツール-エージェント-ユーザインタラクションのためのトラジェクトリレベルの不確実性指標であるTRACERを紹介する。
論文 参考訳(メタデータ) (2026-02-11T22:23:56Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。