論文の概要: MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via
Mixing Recurrent Soft Decision Trees
- arxiv url: http://arxiv.org/abs/2209.07225v3
- Date: Sun, 14 Jan 2024 10:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:46:13.333253
- Title: MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via
Mixing Recurrent Soft Decision Trees
- Title(参考訳): MIXRTs:繰り返しソフト決定木を混合した多エージェント強化学習に向けて
- Authors: Zichuan Liu, Yuanyang Zhu, Zhi Wang, Yang Gao, Chunlin Chen
- Abstract要約: ブラックボックスニューラルネットワークアーキテクチャを用いたマルチエージェント強化学習(MARL)は、不透明な方法で決定する。
従来の線形モデルや決定木のような既存の解釈可能なアプローチは通常、弱い表現力と低い精度に悩まされる。
我々は、ルート・ツー・リーフ・パスを通じて明示的な決定過程を表現できる新しい解釈可能なアーキテクチャを開発した。
- 参考スコア(独自算出の注目度): 18.83056365359009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While achieving tremendous success in various fields, existing multi-agent
reinforcement learning (MARL) with a black-box neural network architecture
makes decisions in an opaque manner that hinders humans from understanding the
learned knowledge and how input observations influence decisions. Instead,
existing interpretable approaches, such as traditional linear models and
decision trees, usually suffer from weak expressivity and low accuracy. To
address this apparent dichotomy between performance and interpretability, our
solution, MIXing Recurrent soft decision Trees (MIXRTs), is a novel
interpretable architecture that can represent explicit decision processes via
the root-to-leaf path and reflect each agent's contribution to the team.
Specifically, we construct a novel soft decision tree to address partial
observability by leveraging the advances in recurrent neural networks, and
demonstrate which features influence the decision-making process through the
tree-based model. Then, based on the value decomposition framework, we linearly
assign credit to each agent by explicitly mixing individual action values to
estimate the joint action value using only local observations, providing new
insights into how agents cooperate to accomplish the task. Theoretical analysis
shows that MIXRTs guarantees the structural constraint on additivity and
monotonicity in the factorization of joint action values. Evaluations on the
challenging Spread and StarCraft II tasks show that MIXRTs achieves competitive
performance compared to widely investigated methods and delivers more
straightforward explanations of the decision processes. We explore a promising
path toward developing learning algorithms with both high performance and
interpretability, potentially shedding light on new interpretable paradigms for
MARL.
- Abstract(参考訳): さまざまな分野で大きな成功を収めている一方で、既存のマルチエージェント強化学習(MARL)とブラックボックスニューラルネットワークアーキテクチャは、学習知識の理解や入力観察が意思決定にどのように影響するかを人によって妨げる不透明な方法で決定を行う。
代わりに、伝統的な線形モデルや決定木のような既存の解釈可能なアプローチは通常、弱い表現力と低い精度に悩まされる。
ミキシング・リカレント・ソフト・決定木(MIXRTs)は,この性能と解釈可能性の明確な二分法に対処するため,各エージェントのチームへの貢献を反映し,ルート・ツー・リーフ・パスを通じて明確な決定プロセスを表現することができる新しい解釈可能なアーキテクチャである。
具体的には、リカレントニューラルネットワークの進歩を利用して、部分観測可能性に対処する新しいソフト決定木を構築し、ツリーベースモデルによる意思決定プロセスに影響を与える特徴を実証する。
そして,その値分解フレームワークに基づいて,各エージェントに対して,各アクション値を明示的に混合し,局所的な観察のみを用いて共同行動値を推定することにより,各エージェントに対する信頼度を線形に割り当てる。
理論的解析により、MIXRTsは結合作用値の分解における付加性と単調性に関する構造的制約を保証していることが示された。
課題であるSpreadとStarCraft IIタスクの評価から、MIXRTは広く研究されている手法と比較して競争性能を達成し、意思決定プロセスのより直接的な説明を提供する。
我々は,MARLの新しい解釈可能なパラダイムに光を当てる可能性があり,高い性能と解釈可能性を持った学習アルゴリズム開発に向けた有望な道を探る。
関連論文リスト
- Neural Networks Decoded: Targeted and Robust Analysis of Neural Network Decisions via Causal Explanations and Reasoning [9.947555560412397]
本稿では、因果推論理論に基づく新しい手法TRACERを紹介し、DNN決定の根底にある因果ダイナミクスを推定する。
提案手法は入力特徴に系統的に介入し,特定の変化がネットワークを介してどのように伝播するかを観察し,内部の活性化と最終的な出力に影響を与える。
TRACERはさらに、モデルバイアスの可能性のある反ファクトを生成することで説明可能性を高め、誤分類に対する対照的な説明を提供する。
論文 参考訳(メタデータ) (2024-10-07T20:44:53Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - SynthTree: Co-supervised Local Model Synthesis for Explainable Prediction [15.832975722301011]
本稿では,最小限の精度で説明可能性を向上させる手法を提案する。
我々は,AI技術を利用してノードを推定する新しい手法を開発した。
我々の研究は、統計的方法論が説明可能なAIを前進させる上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-16T14:43:01Z) - A Neuro-Symbolic Approach to Multi-Agent RL for Interpretability and
Probabilistic Decision Making [42.503612515214044]
マルチエージェント強化学習(MARL)は、複数のエージェントが共存し、共有リソースと競合するシステムにおいて、実行時の意思決定に適している。
ディープラーニングベースの一般的なMARLソリューションを実世界の問題に適用することは、解釈可能性、サンプル効率、部分観測可能性などの問題に悩まされる。
本稿では,ニューロシンボリック手法を用いて,意思決定を分散協調的MARLエージェントで処理するイベント駆動型定式化を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:16:08Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Exploring layerwise decision making in DNNs [1.766593834306011]
ノードの離散的なサンプルアクティベーション値をバイナリ表現として符号化することにより、決定木を抽出できることが示される。
次に、モデルの各レイヤの解釈を生成するために、これらの決定木と既存の特徴属性技術を組み合わせる。
論文 参考訳(メタデータ) (2022-02-01T11:38:59Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - Genetic Adversarial Training of Decision Trees [6.85316573653194]
遺伝的アルゴリズムに基づく決定木のアンサンブルに関する新しい学習手法を提案し、その精度と敵対的な摂動に対する堅牢性を最大化するための決定木を訓練することができる。
本アルゴリズムをMeta-Silvae (MS) というツールに実装し, 対人訓練に用いる参照データセットを用いて実験的に評価した。
論文 参考訳(メタデータ) (2020-12-21T14:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。