論文の概要: MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via
Mixing Recurrent Soft Decision Trees
- arxiv url: http://arxiv.org/abs/2209.07225v1
- Date: Thu, 15 Sep 2022 11:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:32:45.248665
- Title: MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via
Mixing Recurrent Soft Decision Trees
- Title(参考訳): MIXRTs:繰り返しソフト決定木を混合した多エージェント強化学習に向けて
- Authors: Zichuan Liu, Yuanyang Zhu, Zhi Wang, Chunlin Chen
- Abstract要約: マルチエージェント強化学習(MARL)は幅広い分野で大きな成功を収めている。
MARL法は、学習した知識と入力観察が意思決定にどのように影響するかを理解するのを妨げる不透明な方法で意思決定を行う。
我々のソリューションはMIXing Recurrent soft decision Trees (MIXRT)であり、決定木のルート・ツー・リーフパスを通じて明確な決定プロセスを表現することができる新しい解釈可能なアーキテクチャである。
- 参考スコア(独自算出の注目度): 12.938513103243874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) recently has achieved tremendous
success in a wide range of fields. However, with a black-box neural network
architecture, existing MARL methods make decisions in an opaque fashion that
hinders humans from understanding the learned knowledge and how input
observations influence decisions. Our solution is MIXing Recurrent soft
decision Trees (MIXRTs), a novel interpretable architecture that can represent
explicit decision processes via the root-to-leaf path of decision trees. We
introduce a novel recurrent structure in soft decision trees to address partial
observability, and estimate joint action values via linearly mixing outputs of
recurrent trees based on local observations only. Theoretical analysis shows
that MIXRTs guarantees the structural constraint with additivity and
monotonicity in factorization. We evaluate MIXRTs on a range of challenging
StarCraft II tasks. Experimental results show that our interpretable learning
framework obtains competitive performance compared to widely investigated
baselines, and delivers more straightforward explanations and domain knowledge
of the decision processes.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は近年,幅広い分野で大きな成功を収めている。
しかし、ブラックボックスニューラルネットワークアーキテクチャでは、既存のmarlメソッドは、人間が学習した知識を理解することを妨げる不透明な方法で決定を下す。
我々のソリューションはMIXing Recurrent soft decision Trees (MIXRT)であり、決定木のルート・ツー・リーフパスを通じて明確な決定プロセスを表現することができる新しい解釈可能なアーキテクチャである。
本研究では,部分観測可能性に対処するため,ソフト決定木に新たな再帰構造を導入し,局所観測のみに基づいて再帰木の出力を線形混合することにより共同動作値を推定する。
理論的解析により、MIXRTsは因子化における付加性と単調性による構造的制約を保証することが示されている。
課題であるStarCraft IIタスクに対してMIXRTを評価した。
実験の結果,広く研究されているベースラインと比較して,解釈可能な学習フレームワークは競争性能が得られ,意思決定過程に関するより分かりやすい説明とドメイン知識が得られていることがわかった。
関連論文リスト
- A Neuro-Symbolic Approach to Multi-Agent RL for Interpretability and
Probabilistic Decision Making [42.503612515214044]
マルチエージェント強化学習(MARL)は、複数のエージェントが共存し、共有リソースと競合するシステムにおいて、実行時の意思決定に適している。
ディープラーニングベースの一般的なMARLソリューションを実世界の問題に適用することは、解釈可能性、サンプル効率、部分観測可能性などの問題に悩まされる。
本稿では,ニューロシンボリック手法を用いて,意思決定を分散協調的MARLエージェントで処理するイベント駆動型定式化を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:16:08Z) - Learning Interpretable Deep Disentangled Neural Networks for
Hyperspectral Unmixing [16.02193274044797]
非線形性および終端変動を考慮した高スペクトルアンミックスのための新しい解釈可能な深層学習法を提案する。
モデルは、バックプロパゲーションを使用してエンドツーエンドに学習され、セルフ教師付き戦略を使用してトレーニングされる。
合成および実データを用いた実験結果から,提案手法の性能が示唆された。
論文 参考訳(メタデータ) (2023-10-03T18:21:37Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Exploring layerwise decision making in DNNs [1.766593834306011]
ノードの離散的なサンプルアクティベーション値をバイナリ表現として符号化することにより、決定木を抽出できることが示される。
次に、モデルの各レイヤの解釈を生成するために、これらの決定木と既存の特徴属性技術を組み合わせる。
論文 参考訳(メタデータ) (2022-02-01T11:38:59Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - Genetic Adversarial Training of Decision Trees [6.85316573653194]
遺伝的アルゴリズムに基づく決定木のアンサンブルに関する新しい学習手法を提案し、その精度と敵対的な摂動に対する堅牢性を最大化するための決定木を訓練することができる。
本アルゴリズムをMeta-Silvae (MS) というツールに実装し, 対人訓練に用いる参照データセットを用いて実験的に評価した。
論文 参考訳(メタデータ) (2020-12-21T14:05:57Z) - Information State Embedding in Partially Observable Cooperative
Multi-Agent Reinforcement Learning [19.617644643147948]
エージェントの履歴を圧縮する情報状態埋め込みの概念を導入する。
圧縮誤差が分散制御における結果値関数にどのように影響するかを定量化する。
提案された組込み学習パイプラインは、既存の(部分的に観測可能な)MARLアルゴリズムのブラックボックスを開く。
論文 参考訳(メタデータ) (2020-04-02T16:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。