論文の概要: Contextual Counterfactual Credit Assignment for Multi-Agent Reinforcement Learning in LLM Collaboration
- arxiv url: http://arxiv.org/abs/2603.06859v1
- Date: Fri, 06 Mar 2026 20:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.209738
- Title: Contextual Counterfactual Credit Assignment for Multi-Agent Reinforcement Learning in LLM Collaboration
- Title(参考訳): LLMコラボレーションにおけるマルチエージェント強化学習のためのコンテキスト対実クレジット割り当て
- Authors: Yanjun Chen, Yirong Sun, Hanlin Wang, Xinming Zhang, Xiaoyu Shen, Wenjie Li, Wei Zhang,
- Abstract要約: コンテキスト非現実的クレジット割り当て(textbftextttC3)を導入する。
textbftextttC3は、エピソード全体で報酬を分配する代わりに、個々のメッセージの因果的影響を分離する。
textbftextttC3は、確立されたベースラインよりもターミナルパフォーマンスを改善する。
- 参考スコア(独自算出の注目度): 22.269718913202595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent reinforcement learning (MARL) systems powered by large language models (LLMs) are frequently optimized via sparse terminal-only feedback. This shared signal entangles upstream decisions, obstructing accurate decision-level credit assignment. To address this trajectory-level diffusion, we introduce Contextual Counterfactual Credit Assignment (\textbf{\texttt{C3}}). Instead of distributing rewards across an entire episode, \textbf{\texttt{C3}} isolates the causal impact of individual messages by freezing the exact transcript-derived context, evaluating context-matched alternatives via fixed-continuation replay, and applying a leave-one-out (LOO) baseline. This localized intervention extracts unbiased, low-variance marginal advantages for standard policy-gradient optimization. Evaluated across five mathematical and coding benchmarks under matched budgets, \textbf{\texttt{C3}} improves terminal performance over established baselines. Mechanistic diagnostics further show that these gains are accompanied by higher credit fidelity, lower contextual variance, and stronger inter-agent causal dependence. Our code is available at https://github.com/EIT-EAST-Lab/C3.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用した協調型マルチエージェント強化学習システム(MARL)は、疎端末のみのフィードバックによって頻繁に最適化される。
この共有信号は上流の意思決定を絡み、正確な意思決定レベルの信用割り当てを妨げます。
このトラジェクトリレベルの拡散に対処するために、Contextual Counterfactual Credit Assignment (\textbf{\textt{C3}})を導入する。
エピソード全体にわたって報酬を分配する代わりに、 \textbf{\texttt{C3}} は、正確に書き起こし由来のコンテキストを凍結し、固定継続リプレイを通じてコンテキストマッチングされた代替品を評価し、離脱1行(LOO)ベースラインを適用することで、個々のメッセージの因果的影響を分離する。
この局所的介入は、標準方針勾配最適化のための偏りのない、低分散の限界的な利点を抽出する。
整合した予算下での5つの数学的およびコーディングベンチマークで評価された \textbf{\texttt{C3}} は、確立されたベースラインよりもターミナル性能を向上させる。
メカニカル診断は、これらの利得が、より高い信用信条、低い文脈分散、より強いエージェント間因果依存性を伴っていることを示している。
私たちのコードはhttps://github.com/EIT-EAST-Lab/C3.comで公開されています。
関連論文リスト
- Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - SimGR: Escaping the Pitfalls of Generative Decoding in LLM-based Recommendation [68.00727783181289]
推薦システムの中核的な目的は、パーソナライズされたレコメンデーションを可能にするために、アイテムよりもユーザの好みの分布を正確にモデル化することである。
アイテムレベルの嗜好分布を推定する際に,既存の手法が必然的に系統的バイアスを生じさせることを観察する。
textbfSimply textbfGenerative textbfRecommendation (textbfSimGR)を提案する。
論文 参考訳(メタデータ) (2026-02-08T07:26:52Z) - Diffusion-State Policy Optimization for Masked Diffusion Language Models [23.931675509910047]
マスク付きトークンを複数のデノナイジングステップで繰り返し充填して生成するマスケ拡散言語モデル。
中間充足決定を直接最適化するプラグイン・クレジット・アサインメント・レイヤであるDiSPOを提案する。
論文 参考訳(メタデータ) (2026-02-06T07:47:22Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval [19.73916326078242]
CLIPモデルは,テキストと画像データを統合埋め込み空間に整列させることにより,大規模検索システムの基盤となっている。
コストのかかるリトレーニングを避けるため、既存のメソッドは主に大規模言語モデル(LLM)によるクエリ書き換え戦略を採用している。
GRAPEは,検索誘導型クエリ書き換えにランキング信号を組み込むプラグイン・アンド・プレイ拡張手法である。
論文 参考訳(メタデータ) (2025-09-27T15:36:59Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。
本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。
本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。