論文の概要: Explicit Credit Assignment through Local Rewards and Dependence Graphs in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.21523v1
- Date: Thu, 29 Jan 2026 10:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.739187
- Title: Explicit Credit Assignment through Local Rewards and Dependence Graphs in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における局所的リワードと依存グラフによる明示的クレジット割り当て
- Authors: Bang Giang Le, Viet Cuong Ta,
- Abstract要約: 本稿では,協調学習における2つのアプローチのメリットを組み合わせた手法を提案する。
エージェント間の相互作用グラフを用いることで,エージェントの貢献度をグローバルな報酬よりもきめ細かな方法で識別する。
我々の実験は、従来のローカルおよびグローバルな報酬設定よりも改善されたアプローチの柔軟性を実証する。
- 参考スコア(独自算出の注目度): 5.8010446129208155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To promote cooperation in Multi-Agent Reinforcement Learning, the reward signals of all agents can be aggregated together, forming global rewards that are commonly known as the fully cooperative setting. However, global rewards are usually noisy because they contain the contributions of all agents, which have to be resolved in the credit assignment process. On the other hand, using local reward benefits from faster learning due to the separation of agents' contributions, but can be suboptimal as agents myopically optimize their own reward while disregarding the global optimality. In this work, we propose a method that combines the merits of both approaches. By using a graph of interaction between agents, our method discerns the individual agent contribution in a more fine-grained manner than a global reward, while alleviating the cooperation problem with agents' local reward. We also introduce a practical approach for approximating such a graph. Our experiments demonstrate the flexibility of the approach, enabling improvements over the traditional local and global reward settings.
- Abstract(参考訳): 多エージェント強化学習における協調を促進するために、すべてのエージェントの報酬信号を集約し、完全に協調的な設定として知られるグローバルな報酬を形成する。
しかしながら、グローバルな報酬は通常、クレジット割り当てプロセスで解決しなければならないすべてのエージェントの貢献を含んでいるためうるさい。
一方、エージェントの貢献の分離による学習の迅速化による局所的な報酬の恩恵は、エージェントがグローバルな最適性を無視しながら、ミオプティカルに自身の報酬を最適化するものとして、亜最適である。
本研究では,両手法の利点を組み合わせた手法を提案する。
エージェント間の相互作用グラフを用いて、エージェントの局所的な報酬との協調問題を緩和しつつ、各エージェントの貢献をグローバルな報酬よりもきめ細かな方法で識別する。
また、そのようなグラフを近似するための実践的なアプローチも導入する。
我々の実験は、従来のローカルおよびグローバルな報酬設定よりも改善されたアプローチの柔軟性を実証する。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Agent-Temporal Credit Assignment for Optimal Policy Preservation in Sparse Multi-Agent Reinforcement Learning [14.003793644193605]
マルチエージェント環境では、エージェントはスパースや遅れたグローバル報酬のために最適なポリシーを学ぶのに苦労することが多い。
本稿では,エージェント・テンポラル・アジェント・リワード再分配(TAR$2$)を導入し,エージェント・テンポラル・クレジット割り当て問題に対処する新しいアプローチを提案する。
TAR$2$は、粗末なグローバル報酬をタイムステップ固有の報酬に分解し、エージェント固有の報酬を計算します。
論文 参考訳(メタデータ) (2024-12-19T12:05:13Z) - Asynchronous Message-Passing and Zeroth-Order Optimization Based Distributed Learning with a Use-Case in Resource Allocation in Communication Networks [11.182443036683225]
分散学習と適応は大きな関心を集め、機械学習信号処理に広く応用されている。
本稿では、エージェントが共通のタスクに向けて協調するシナリオに焦点を当てる。
送信者として働くエージェントは、グローバルな報酬を最大化するために、それぞれのポリシーを共同で訓練する。
論文 参考訳(メタデータ) (2023-11-08T11:12:27Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Cooperative Heterogeneous Deep Reinforcement Learning [47.97582814287474]
異種エージェントの利点を統合することで政策を学習できる協調的異種深層強化学習フレームワークを提案する。
グローバルエージェント(Global agent)は、他のエージェントからの経験を活用できる非政治エージェントである。
ローカルエージェント(英: local agent)は、地域を効果的に探索できる、政治上のエージェントまたは人口ベースの進化的エージェントである。
論文 参考訳(メタデータ) (2020-11-02T07:39:09Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。