論文の概要: High-order Interactions Modeling for Interpretable Multi-Agent Q-Learning
- arxiv url: http://arxiv.org/abs/2510.20218v1
- Date: Thu, 23 Oct 2025 05:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.421301
- Title: High-order Interactions Modeling for Interpretable Multi-Agent Q-Learning
- Title(参考訳): 解釈可能なマルチエージェントQ-Learningのための高次相互作用モデリング
- Authors: Qinyu Xu, Yuanyang Zhu, Xuefei Wu, Chunlin Chen,
- Abstract要約: 高次相互作用をモデル化するためのこれまでの努力は、強化爆発やブラックボックスネットワーク構造の不透明な性質によって妨げられている。
本稿では、任意の順序のエージェント相互作用を柔軟にキャプチャできる、Continued Fraction Q-Learning(QCoFr)と呼ばれる新しい値分解フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.42637658125405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to model interactions among agents is crucial for effective coordination and understanding their cooperation mechanisms in multi-agent reinforcement learning (MARL). However, previous efforts to model high-order interactions have been primarily hindered by the combinatorial explosion or the opaque nature of their black-box network structures. In this paper, we propose a novel value decomposition framework, called Continued Fraction Q-Learning (QCoFr), which can flexibly capture arbitrary-order agent interactions with only linear complexity $\mathcal{O}\left({n}\right)$ in the number of agents, thus avoiding the combinatorial explosion when modeling rich cooperation. Furthermore, we introduce the variational information bottleneck to extract latent information for estimating credits. This latent information helps agents filter out noisy interactions, thereby significantly enhancing both cooperation and interpretability. Extensive experiments demonstrate that QCoFr not only consistently achieves better performance but also provides interpretability that aligns with our theoretical analysis.
- Abstract(参考訳): エージェント間の相互作用をモデル化する能力は、マルチエージェント強化学習(MARL)における協調機構の効果的な調整と理解に不可欠である。
しかし、従来の高次相互作用のモデル化は、主に組合せ爆発やブラックボックスネットワーク構造の不透明な性質によって妨げられている。
本稿では,連続分節Q-Learning(QCoFr)と呼ばれる新しい値分解フレームワークを提案する。これは線形複雑性のみで任意の順序のエージェント相互作用を柔軟にキャプチャし,エージェント数を$\mathcal{O}\left({n}\right)$とすることで,リッチな協調をモデル化する際の組合せ的爆発を回避する。
さらに、変動情報ボトルネックを導入し、信頼度を推定するための潜時情報を抽出する。
この潜伏情報により、エージェントはノイズの多い相互作用をフィルタリングし、協調性と解釈可能性の両方を大幅に向上する。
大規模な実験により、QCoFrは、常により良い性能を達成するだけでなく、我々の理論解析と整合する解釈可能性も提供することが示された。
関連論文リスト
- HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction [11.30785902722196]
HeLoFusionは、異種およびマルチスケールエージェントインタラクションをモデリングするための効率的でスケーラブルなエンコーダである。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-09-15T09:19:41Z) - Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank [52.831993899183416]
相互作用ランクという構造的仮定を導入し、相互作用ランクの低い関数が一般的なものよりも分布シフトに対して著しく堅牢であることを示す。
我々は,非正規化と非正規化学習と組み合わせることで,オフラインMARLにおける分散的,計算的,統計的に効率的な学習が可能であることを実証した。
論文 参考訳(メタデータ) (2024-10-01T22:16:22Z) - Scaling Large Language Model-based Multi-Agent Collaboration [72.8998796426346]
近年の大規模言語モデル駆動型自律エージェントのブレークスルーにより、複数エージェントのコラボレーションが集団的推論を通じて各個人を上回ることが判明している。
本研究は、協調剤の連続的な添加が同様の利益をもたらすかどうかを考察する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - Interpretable Interaction Modeling for Trajectory Prediction via Agent Selection and Physical Coefficient [1.6954753390775528]
本稿では、手動で対話エージェントを選択し、Transformerの注目スコアを新たに計算された物理相関係数に置き換えるASPILinを提案する。
驚くべきことに、これらの単純な修正は予測性能を大幅に改善し、計算コストを大幅に削減することができる。
論文 参考訳(メタデータ) (2024-05-21T18:45:18Z) - Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning [39.4394389642761]
本稿では,対話型対話を対話型プロトタイプに切り離すための新しい対話型On Pattern DisenTangling (OPT) 手法を提案する。
OPTは無関係な実体間のノイズの相互作用をフィルタリングしやすくし、一般化可能性や解釈可能性を大幅に向上させる。
単一タスク,マルチタスク,ゼロショットのベンチマーク実験により,提案手法が最先端のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-08T13:42:54Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。