論文の概要: Concept Learning for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.20143v1
- Date: Sun, 27 Jul 2025 06:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.069935
- Title: Concept Learning for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習における概念学習
- Authors: Zhonghan Ge, Yuanyang Zhu, Chunlin Chen,
- Abstract要約: 本稿では,概念ボトルネックモデルを用いた解釈可能な値分解フレームワークについて検討する。
マルチエージェントQ-ラーニングのための概念学習という新しい価値ベース手法を提案する。
CMQは最先端技術と比較して優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 6.76324539337304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite substantial progress in applying neural networks (NN) to multi-agent reinforcement learning (MARL) areas, they still largely suffer from a lack of transparency and interoperability. However, its implicit cooperative mechanism is not yet fully understood due to black-box networks. In this work, we study an interpretable value decomposition framework via concept bottleneck models, which promote trustworthiness by conditioning credit assignment on an intermediate level of human-like cooperation concepts. To address this problem, we propose a novel value-based method, named Concepts learning for Multi-agent Q-learning (CMQ), that goes beyond the current performance-vs-interpretability trade-off by learning interpretable cooperation concepts. CMQ represents each cooperation concept as a supervised vector, as opposed to existing models where the information flowing through their end-to-end mechanism is concept-agnostic. Intuitively, using individual action value conditioning on global state embeddings to represent each concept allows for extra cooperation representation capacity. Empirical evaluations on the StarCraft II micromanagement challenge and level-based foraging (LBF) show that CMQ achieves superior performance compared with the state-of-the-art counterparts. The results also demonstrate that CMQ provides more cooperation concept representation capturing meaningful cooperation modes, and supports test-time concept interventions for detecting potential biases of cooperation mode and identifying spurious artifacts that impact cooperation.
- Abstract(参考訳): ニューラルネットワーク(NN)をマルチエージェント強化学習(MARL)領域に適用するという大きな進歩にもかかわらず、透明性と相互運用性の欠如に悩まされている。
しかし、ブラックボックスネットワークのため、その暗黙の協調メカニズムはまだ完全には理解されていない。
本研究では,人間的な協調概念の中間レベルにクレジット代入を条件づけることにより信頼性を高める概念ボトルネックモデルを用いて,解釈可能な価値分解フレームワークについて検討する。
この問題に対処するために,多エージェントQ-ラーニングのための概念学習(Concepts Learning for Multi-agent Q-learning, CMQ)という新しい価値ベース手法を提案する。
CMQは、それぞれのコラボレーションの概念を教師付きベクトルとして表現します。
直感的には、グローバルな状態埋め込みに個別のアクション値条件を適用することで、各概念を表現することで、余分な協調表現能力が得られる。
StarCraft IIのマイクロマネジメントチャレンジとLBF(Level-based foraging)に関する実証的な評価は、CMQが最先端技術よりも優れたパフォーマンスを実現していることを示している。
また、CMQは、意味のある協調モードを捉えた協力の概念表現をより多く提供し、協調モードの潜在的なバイアスを検出し、協力に影響を与える急激な成果物を識別するためのテストタイムの概念介入を支援することを実証した。
関連論文リスト
- Interpretable Hierarchical Concept Reasoning through Attention-Guided Graph Learning [8.464865102100925]
本稿では,階層型概念記憶共振器(H-CMR)を提案する。
H-CMRは最先端のパフォーマンスと一致し、概念やモデルの介入を通じて強い人間との相互作用を可能にする。
論文 参考訳(メタデータ) (2025-06-26T08:56:55Z) - V-CEM: Bridging Performance and Intervenability in Concept-based Models [6.617167508694296]
概念ベースのAI(C-XAI)は、中間的、人間の理解可能な概念を活用することにより、AIモデルの解釈可能性を高める、急速に成長する研究分野である。
CBMは最終決定の前に概念を明示的に予測し、介入が誤分類された概念を修正できるようにする。
CBMは介入を伴うOF-Distribution(OOD)設定でも有効であるが、ブラックボックスモデルのパフォーマンスに匹敵する。
本稿では,CEMの介入応答性を改善するために,変分推論を利用する変分概念埋め込みモデルを提案する。
論文 参考訳(メタデータ) (2025-04-04T22:43:04Z) - Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - EQ-CBM: A Probabilistic Concept Bottleneck with Energy-based Models and Quantized Vectors [4.481898130085069]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念を活用して解釈可能性を高める効果的なアプローチとして注目されている。
既存のCBMは、決定論的概念の符号化と一貫性のない概念への依存によって問題に直面し、不正確な結果となった。
本稿では,確率論的概念エンコーディングによりCBMを強化する新しいフレームワークであるEQ-CBMを提案する。
論文 参考訳(メタデータ) (2024-09-22T23:43:45Z) - Scaling Large Language Model-based Multi-Agent Collaboration [72.8998796426346]
近年の大規模言語モデル駆動型自律エージェントのブレークスルーにより、複数エージェントのコラボレーションが集団的推論を通じて各個人を上回ることが判明している。
本研究は、協調剤の連続的な添加が同様の利益をもたらすかどうかを考察する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - A Self-explaining Neural Architecture for Generalizable Concept Learning [29.932706137805713]
現在,SOTA の概念学習アプローチは,概念の忠実さの欠如と,概念の相互運用の限界という2つの大きな問題に悩まされている。
ドメイン間の概念学習のための新しい自己説明型アーキテクチャを提案する。
提案手法は,現在広く使われている4つの実世界のデータセットに対するSOTA概念学習手法に対して有効であることを示す。
論文 参考訳(メタデータ) (2024-05-01T06:50:18Z) - What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception [52.41695608928129]
マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,MAPにおける協調的視点の「良い」特性を探求することに焦点を当てた中間的協調について検討する。
中間コラボレーションのための新しいフレームワークCMiMCを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:18:55Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。