論文の概要: TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.28699v1
- Date: Wed, 27 May 2026 16:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.210336
- Title: TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning
- Title(参考訳): TRACER: 協調型マルチLLM推論における内部強化クレジットとターンレベルのレギュレットマッチング
- Authors: Chusen Li, Zhou Liu, Shuigeng Zhou, Wentao Zhang,
- Abstract要約: 大規模言語モデルは、推論を改善するために強化学習またはマルチエージェントにますます依存している。
協調型マルチLLM推論のためのターンレベル強化フレームワークであるTRACERを紹介する。
我々は,GSM8Kトレーニングの分割と,GSM8K,MATH500,GPQA-Diamondにおける局所的なRLスタイルの手法を訓練し,ドメイン内精度,クロスベンチマークの一般化,推論コスト,修正保存行動を測定する。
- 参考スコア(独自算出の注目度): 25.10564375661515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models increasingly rely on either reinforcement learning or multi-agent prompting to improve reasoning, yet these two paradigms remain difficult to combine. Directly applying single-agent reinforcement learning to multi-turn multi-agent systems faces following dilemmas: i) Sparse rewards, role-level free-riding and excessive training overhead. ii) Agents only imitate to collaborate. iii) Fixed collaboration protocol falls into oscillating local optimum. We introduce TRACER, a turn-level reinforcement framework for cooperative multi-LLM reasoning. TRACER separates collaborative decision making into a controller-regret layer, where controllers learn whether the agents should speak or skip the current round through regret matching, and a generation-credit layer, which optimizes proposer and reviewer utterances with role-specific GSPO rewards. This design i) assigns credit at the level of both action modes and generated utterances, thus avoiding free-riding and sparse rewards. We only expand the choices made by the controllers, thus greatly reducing computational cost of training. Moreover, ii) agents acquire collaborative capability as they learn when to utter and what to speak. Finally, iii) by designing binary actions ingeniously, we extend classical game theory established for finite action spaces to deep learning, thus achieving mathematically rigorous convergence. We train all local RL-style methods on the GSM8K training split and evaluate on held-out GSM8K, MATH500, and GPQA-Diamond to measure in-domain accuracy, cross-benchmark generalization, inference cost, and correction-preservation behavior. The resulting framework provides a compact and reproducible testbed for studying learned collaboration policies beyond fixed debate, voting, or aggregation protocols. Code is available at https://github.com/Shark-Forest/TRACER.
- Abstract(参考訳): 大規模言語モデルは、強化学習やマルチエージェントのどちらかに依存して推論を改善する傾向にあるが、これら2つのパラダイムの組み合わせは難しいままである。
マルチターンマルチエージェントシステムへのシングルエージェント強化学習の直接適用
一 報酬の不足、役割レベルの無料化及び過度の訓練のオーバーヘッド
二 エージェントは、協力することのみを模倣する。
三 固定協調プロトコルは、局地最適化の振動に陥る。
協調型マルチLLM推論のためのターンレベル強化フレームワークであるTRACERを紹介する。
TRACERは、協調的な意思決定をコントローラ-レグレット層に分離し、コントローラは、後悔のマッチングを通じてエージェントが現在のラウンドを話すかスキップすべきかを学習する。
この設計
一 双方の行動態勢及び発声のレベルにクレジットを割り当てることにより、自由裁量及び少額の報酬を回避すること。
コントローラの選択肢を拡大するだけで、トレーニングの計算コストを大幅に削減できるのです。
さらに
二 エージェントが、いつ発声し、何を話すかを学ぶときに、協調能力を取得すること。
最後に
三 双対作用を巧みに設計することにより、有限作用空間に対して確立された古典ゲーム理論を深層学習に拡張し、数学的に厳密な収束を達成する。
我々は,GSM8Kトレーニングの分割と,GSM8K,MATH500,GPQA-Diamondにおける局所的なRLスタイルの手法を訓練し,ドメイン内精度,クロスベンチマークの一般化,推論コスト,修正保存行動を測定する。
結果として得られるフレームワークは、固定された議論、投票、あるいは集約プロトコルを超えた、学習されたコラボレーションポリシーを研究するためのコンパクトで再現可能なテストベッドを提供する。
コードはhttps://github.com/Shark-Forest/TRACERで公開されている。
関連論文リスト
- Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning [68.85408801740228]
協調型マルチエージェント強化学習問題としてトポロジ選択を再構成する強化学習フレームワークである textbfAgent Q-Mix を提案する。
提案手法は,Qmix値分解を用いて分散化された通信決定を学習し,各エージェントがラウンドワイド通信グラフを共同生成する一連の通信行動から選択する。
エージェントQ-Mixは,エージェント故障に対して優れたトークン効率とロバスト性を示しながら,既存手法と比較して高い平均精度を達成する。
論文 参考訳(メタデータ) (2026-04-01T00:38:24Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Multi-agent In-context Coordination via Decentralized Memory Retrieval [39.106914463842685]
多様なデータセットに基づいてトレーニングされた大規模なトランスフォーマーモデルは、これまで目に見えなかったタスクにおいて、印象的な数ショットのパフォーマンスを誇示している。
MARL(Multi-Agent Reinforcement Learning)では、エージェントが共通の目標に向かって調整しなければならない。
高速適応によるコーディネーション向上を目的とした新しい手法である分散メモリ検索(MAICC)によるマルチエージェントインコンテキストコーディネーションを提案する。
論文 参考訳(メタデータ) (2025-11-13T07:08:31Z) - UR$^2$: Unify RAG and Reasoning through Reinforcement Learning [17.319590573147565]
大規模言語モデル(LLM)は2つの相補的パラダイムを通じて顕著な能力を示してきた: 検索-拡張生成(RAG)と、検証リワード(RLVR)からの強化学習(Reinforcement Learning)である。
我々は、強化学習による検索と推論を統一する一般的なフレームワークUR2(Unified RAG and Reasoning)を提案する。
オープンドメインQA、MMLU-Pro、医学、数学的推論タスクにわたる実験は、UR$2$が既存のRAG法とRL法を大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-08-08T09:33:20Z) - Everyone Contributes! Incentivizing Strategic Cooperation in Multi-LLM Systems via Sequential Public Goods Games [4.3891974840097925]
多エージェント協調系列公共財ゲーム(MAC-SPGG)
マルチLLMアンサンブルにおける協調を体系的に動機付けるための,ゲーム理論に基づく新しい強化学習フレームワークを提案する。
本研究は,スケーラブルで堅牢なマルチエージェント言語生成のための構造的,インセンティブに整合したMAC-SPGG協力の力を強調した。
論文 参考訳(メタデータ) (2025-08-04T05:36:07Z) - PARCO: Parallel AutoRegressive Models for Multi-Agent Combinatorial Optimization [25.209951743372855]
PARCOはマルチエージェントタスクのための高品質なソリューションを効率的に構築するために設計された強化学習フレームワークである。
マルチエージェント車両のルーティングとスケジューリングにおけるPARCOの評価を行い,提案手法は最先端の学習方法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-05T17:49:18Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。