論文の概要: TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination
- arxiv url: http://arxiv.org/abs/2605.15207v1
- Date: Fri, 01 May 2026 23:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.827048
- Title: TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination
- Title(参考訳): TeamTR:マルチエージェントLLMコーディネーションのための信頼度微調整
- Authors: Yi Xie, Siao Liu, Falong Fan, Yuanqi Yao, Yue Zhao, Bo Liu,
- Abstract要約: TeamTRは信頼領域フレームワークで、各コンポーネントの更新後にトラジェクトリを再サンプリングし、エージェントごとの分散制御を実行する。
TeamTRはシングルエージェントとシーケンシャルベースラインを平均7.1%で上回り、調整のレグレッションを緩和し、プラグアンドプレイのコンポーネント置換をサポートする。
- 参考スコア(独自算出の注目度): 11.65571332626047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent LLM systems have shown promise for complex reasoning, yet recent evaluations reveal they often underperform single-model baselines. We identify a structural failure mode in sequential fine-tuning of shared-context teams: updating one agent shifts the team's context distribution, and when subsequent updates are evaluated on cached rollouts, this mismatch compounds. We formalize this as the compounding occupancy shift and prove that stale-occupancy evaluation incurs a penalty that scales quadratically with the number of agents. In contrast, intermediate-occupancy evaluation reduces this to linear scaling. We propose TeamTR, a trust-region framework that resamples trajectories after each component update and enforces per-agent divergence control, yielding rigorous per-update and per-stage improvement lower bounds. Experiments show that TeamTR outperforms single-agent and sequential baselines with 7.1% on average, mitigates coordination regressions, and supports plug-and-play component replacement. Code is available at https://github.com/Yydc/TeamTR.
- Abstract(参考訳): マルチエージェントLLMシステムは複雑な推論を約束するが、最近の評価では、しばしばシングルモデルベースラインよりも性能が低いことが示されている。
1つのエージェントの更新はチームのコンテキスト分布をシフトさせ、その後の更新がキャッシュされたロールアウトで評価されると、このミスマッチは複合する。
我々はこれを複合占有シフトとして定式化し、老化占有率評価がエージェント数と2次スケールのペナルティをもたらすことを証明した。
対照的に、中間占有評価は、これを線形スケーリングに還元する。
我々は,各コンポーネント更新後にトラジェクトリを再サンプリングし,エージェントごとの分散制御を強制する信頼領域フレームワークであるTeamTRを提案する。
実験によると、TeamTRはシングルエージェントとシーケンシャルベースラインを平均7.1%で上回り、調整の回帰を緩和し、プラグアンドプレイのコンポーネント置換をサポートする。
コードはhttps://github.com/Yydc/TeamTRで入手できる。
関連論文リスト
- Signal Reshaping for GRPO in Weak-Feedback Agentic Code Repair [36.31472731207028]
このようなフィードバックの下で,標準GRPOの信号再構成について検討する。
完全な信号整形GRPOは、厳密なコンパイルとシーケンスの精度を改善する。
論文 参考訳(メタデータ) (2026-05-08T05:41:25Z) - Improving the Efficiency of Language Agent Teams with Adaptive Task Graphs [52.26652574704317]
大規模言語モデル(LLM)はますますチームにデプロイされているが、既存のコーディネーションアプローチは2つの極端な部分を占めることが多い。
本稿では,Language Agent Teams for Task Evolution (LATTE)を紹介した。
論文 参考訳(メタデータ) (2026-05-07T14:19:17Z) - CAPO: Counterfactual Credit Assignment in Sequential Cooperative Teams [6.8920524670882815]
本稿では,Aristocrat Utility(SeqAU)について紹介する。
批判のないポリシー段階のアルゴリズムであるCAPOを導出する。
論文 参考訳(メタデータ) (2026-04-20T01:14:59Z) - SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees [20.52379192411959]
多数のパラメータを持つ大規模言語モデル(LLM)は、高いパフォーマンスを実現するが、しばしばデプロイするのに非常に高価である。
最近の研究は、より小さく、より効率的なLLMのチームを使って、単一の大きなモデルに合わせたり、あるいは性能を上回るものを探っている。
我々は、コーディネータフリートレーニングパラダイムであるSequential Agent Tuning(SAT)を導入することで、この問題に対処する。
論文 参考訳(メタデータ) (2026-04-17T01:45:30Z) - Scaling Test-Time Compute for Agentic Coding [126.72747643609274]
本稿では,ロールアウト軌跡のコンパクトな表現に基づくエージェントコーディングのためのテスト時間スケーリングフレームワークを提案する。
当社のフレームワークは,各ロールアウトを,その健全な仮説,進捗,障害モードを保存する構造的な要約に変換する。
提案手法は,SWE-Bench Verified および Terminal-Bench v2.0 におけるフロンティア符号化エージェントの性能を一貫して改善する。
論文 参考訳(メタデータ) (2026-04-16T17:39:33Z) - AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation [39.61543921719145]
AgentSelectは、エージェントの選択をナラティブクエリからエージェントへのレコメンデーションとして再設計するベンチマークである。
異種評価アーティファクトを、統一された正のみの相互作用データに変換する。
AgentSelectは、エージェントレコメンデーションのための最初の統一データと評価インフラストラクチャを提供する。
論文 参考訳(メタデータ) (2026-03-04T06:17:51Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Order Matters: Agent-by-agent Policy Optimization [41.017093493743765]
ポリシーをエージェント・バイ・エージェントに更新するシーケンシャルなスキームは、別の視点を提供し、高いパフォーマンスを示す。
サンプル効率を向上させるために,textbfAgent-by-textbfagent textbfPolicy textbfOptimization (A2PO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:24:34Z) - Group DETR: Fast DETR Training with Group-Wise One-to-Many Assignment [80.55064790937092]
複数の予測に1つの基幹オブジェクトを割り当てる1対多の割り当ては、より高速なR-CNNやFCOSのような検出方法に成功している。
グループDETR(Group DETR)は、単純だが効率的なDECRトレーニング手法であり、一対多の割り当てのためのグループワイドな方法を導入する。
実験により、グループDETRはトレーニング収束を著しく高速化し、様々なDETRモデルの性能を向上させることが示された。
論文 参考訳(メタデータ) (2022-07-26T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。