論文の概要: Multi-Agent Decision-Focused Learning via Value-Aware Sequential Communication
- arxiv url: http://arxiv.org/abs/2604.08944v1
- Date: Fri, 10 Apr 2026 04:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.681397
- Title: Multi-Agent Decision-Focused Learning via Value-Aware Sequential Communication
- Title(参考訳): 価値認識型シーケンス通信によるマルチエージェント意思決定型学習
- Authors: Benjamin Amoh, Geoffrey Parker, Wesley Marrero,
- Abstract要約: textbfSeqComm-DFLを導入し、タスクパフォーマンスに関する意思決定中心の学習との逐次的なコミュニケーションを統一する。
提案手法は,シーケンシャルなStackelberg条件付きEmphvalue-awareメッセージ生成を特徴とする。
共同医療とStarCraft Multi-Agent Challengeベンチマークでは、SeqComm-DFLは累積報酬の4倍から6倍、利率13%以上の改善を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent coordination under partial observability requires agents to share complementary private information. While recent methods optimize messages for intermediate objectives (e.g., reconstruction accuracy or mutual information), rather than decision quality, we introduce \textbf{SeqComm-DFL}, unifying the sequential communication with decision-focused learning for task performance. Our approach features \emph{value-aware message generation with sequential Stackelberg conditioning}: messages maximize receiver decision quality and are generated in priority order, with agents conditioning on their predecessors. The \emph{guidance potential} determined by their prosocial ordering. We extend Optimal Model Design to communication-augmented world models with QMIX factorization, enabling efficient end-to-end training via implicit differentiation. We prove information-theoretic bounds showing that communication value scales with coordination gaps and establish $\mathcal{O}(1/\sqrt{T})$ convergence for the bilevel optimization, where $T$ denotes the number of training iterations. On collaborative healthcare and StarCraft Multi-Agent Challenge (SMAC) benchmarks, SeqComm-DFL achieves four to six times higher cumulative rewards and over 13\% win rate improvements, enabling coordination strategies inaccessible under information asymmetry.
- Abstract(参考訳): 部分観測可能性の下でのマルチエージェント調整では、エージェントは補完的なプライベート情報を共有する必要がある。
近年の手法では、意思決定品質ではなく、中間目的(例えば、再構成精度や相互情報)のメッセージを最適化する手法が提案されているが、タスクパフォーマンスに関する意思決定中心の学習との逐次的なコミュニケーションを統合化するためには、 \textbf{SeqComm-DFL}を導入する。
メッセージはシーケンシャルなStackelberg条件付きで 'emph{value-aware message generation with sequence Stackelberg conditioning}: message maximum receiver decision quality and are generated in priority order, with agent conditioning on their previouss。
emph{guidance potential} は、その社会的秩序によって決定される。
最適モデル設計をQMIX因子化によるコミュニケーション強化世界モデルに拡張し、暗黙の微分による効率的なエンドツーエンドトレーニングを実現する。
我々は、通信値が調整ギャップとともにスケールすることを示し、二段階最適化のために$\mathcal{O}(1/\sqrt{T})$収束を確立する。
コラボレーションヘルスケアとStarCraft Multi-Agent Challenge (SMAC)ベンチマークでは、SeqComm-DFLは累積報酬の4倍から6倍の上昇と13倍の利率の改善を実現し、情報非対称性の下ではアクセスできないコーディネーション戦略を実現している。
関連論文リスト
- Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning [68.85408801740228]
協調型マルチエージェント強化学習問題としてトポロジ選択を再構成する強化学習フレームワークである textbfAgent Q-Mix を提案する。
提案手法は,Qmix値分解を用いて分散化された通信決定を学習し,各エージェントがラウンドワイド通信グラフを共同生成する一連の通信行動から選択する。
エージェントQ-Mixは,エージェント故障に対して優れたトークン効率とロバスト性を示しながら,既存手法と比較して高い平均精度を達成する。
論文 参考訳(メタデータ) (2026-04-01T00:38:24Z) - SCoUT: Scalable Communication via Utility-Guided Temporal Grouping in Multi-Agent Reinforcement Learning [2.064923532131528]
部分観察型マルチエージェント強化学習(MARL)におけるコミュニケーションによるコーディネーションの改善
textbfScalable textbfCommunication via textbfUtility-guided textbfTemporal grouping)
エージェントは環境行動、決定の送付、受取者選択という3つの方針で訓練される。
論文 参考訳(メタデータ) (2026-03-05T05:33:28Z) - Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model [74.99242687133408]
Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:06:04Z) - Multi-agent In-context Coordination via Decentralized Memory Retrieval [39.106914463842685]
多様なデータセットに基づいてトレーニングされた大規模なトランスフォーマーモデルは、これまで目に見えなかったタスクにおいて、印象的な数ショットのパフォーマンスを誇示している。
MARL(Multi-Agent Reinforcement Learning)では、エージェントが共通の目標に向かって調整しなければならない。
高速適応によるコーディネーション向上を目的とした新しい手法である分散メモリ検索(MAICC)によるマルチエージェントインコンテキストコーディネーションを提案する。
論文 参考訳(メタデータ) (2025-11-13T07:08:31Z) - Learning what to say and how precisely: Efficient Communication via Differentiable Discrete Communication Learning [14.221641613518633]
離散メッセージのエンドツーエンド最適化のためのフレームワークを開発する。
タスク性能の整合や超過を図りながら、帯域幅を桁違いに減らすことを示す。
論文 参考訳(メタデータ) (2025-11-03T13:16:57Z) - AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [77.62279834617475]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。
提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-21T18:34:43Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning [9.774412108791218]
深層強化学習における値関数分解のための新しい枠組みを提案する。
特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。
我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
論文 参考訳(メタデータ) (2020-10-09T18:01:01Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。