Fugu-MT 論文翻訳(概要): MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via Mixing Recurrent Soft Decision Trees

論文の概要: MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via Mixing Recurrent Soft Decision Trees

arxiv url: http://arxiv.org/abs/2209.07225v1
Date: Thu, 15 Sep 2022 11:39:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-16 13:32:45.248665
Title: MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via Mixing Recurrent Soft Decision Trees
Title（参考訳）: MIXRTs:繰り返しソフト決定木を混合した多エージェント強化学習に向けて
Authors: Zichuan Liu, Yuanyang Zhu, Zhi Wang, Chunlin Chen
Abstract要約: マルチエージェント強化学習(MARL)は幅広い分野で大きな成功を収めている。 MARL法は、学習した知識と入力観察が意思決定にどのように影響するかを理解するのを妨げる不透明な方法で意思決定を行う。我々のソリューションはMIXing Recurrent soft decision Trees (MIXRT)であり、決定木のルート・ツー・リーフパスを通じて明確な決定プロセスを表現することができる新しい解釈可能なアーキテクチャである。
参考スコア（独自算出の注目度）: 12.938513103243874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent reinforcement learning (MARL) recently has achieved tremendous success in a wide range of fields. However, with a black-box neural network architecture, existing MARL methods make decisions in an opaque fashion that hinders humans from understanding the learned knowledge and how input observations influence decisions. Our solution is MIXing Recurrent soft decision Trees (MIXRTs), a novel interpretable architecture that can represent explicit decision processes via the root-to-leaf path of decision trees. We introduce a novel recurrent structure in soft decision trees to address partial observability, and estimate joint action values via linearly mixing outputs of recurrent trees based on local observations only. Theoretical analysis shows that MIXRTs guarantees the structural constraint with additivity and monotonicity in factorization. We evaluate MIXRTs on a range of challenging StarCraft II tasks. Experimental results show that our interpretable learning framework obtains competitive performance compared to widely investigated baselines, and delivers more straightforward explanations and domain knowledge of the decision processes.
Abstract（参考訳）: マルチエージェント強化学習(MARL)は近年,幅広い分野で大きな成功を収めている。しかし、ブラックボックスニューラルネットワークアーキテクチャでは、既存のmarlメソッドは、人間が学習した知識を理解することを妨げる不透明な方法で決定を下す。我々のソリューションはMIXing Recurrent soft decision Trees (MIXRT)であり、決定木のルート・ツー・リーフパスを通じて明確な決定プロセスを表現することができる新しい解釈可能なアーキテクチャである。本研究では,部分観測可能性に対処するため,ソフト決定木に新たな再帰構造を導入し,局所観測のみに基づいて再帰木の出力を線形混合することにより共同動作値を推定する。理論的解析により、MIXRTsは因子化における付加性と単調性による構造的制約を保証することが示されている。課題であるStarCraft IIタスクに対してMIXRTを評価した。実験の結果,広く研究されているベースラインと比較して,解釈可能な学習フレームワークは競争性能が得られ,意思決定過程に関するより分かりやすい説明とドメイン知識が得られていることがわかった。

関連論文リスト

Ensemble-MIX: Enhancing Sample Efficiency in Multi-Agent RL Using Ensemble Methods [0.0]
マルチエージェント強化学習(MARL)法は,様々なマルチエージェントタスクにおいて最先端の結果を得た。しかし、MARLアルゴリズムは、単一のエージェントよりもはるかに多くの環境相互作用を必要とする。本稿では,分散された中央集権的批判と分散アンサンブル学習を組み合わせた新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-03T13:13:15Z)
Modeling Response Consistency in Multi-Agent LLM Systems: A Comparative Analysis of Shared and Separate Context Approaches [0.0]
本稿では,文脈制約,ノイズ,エージェント間の依存性がシステム性能に与える影響を評価する指標として,応答一貫性指数(RCI)を導入する。提案手法は,メモリ制約とノイズ管理の相互作用に着目した既存研究と異なる。
論文参考訳（メタデータ） (2025-04-09T21:54:21Z)
Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm [54.98788921815576]
我々は,textbfLocalityをベースとしたtextbfFactorized textbfMulti-Agent textbfActor-textbfCritic (Loc-FACMAC) という新しい協調型マルチエージェント強化学習法を提案する。我々は、局所性の概念を批判的学習に統合し、トレーニング中に強く関連するロボットが分割を形成する。提案手法は,局所的な報酬に着目し,分割型学習を活用して既存のアルゴリズムを改良し,学習効率と性能を向上させる。
論文参考訳（メタデータ） (2025-03-24T16:00:16Z)
Neural Networks Decoded: Targeted and Robust Analysis of Neural Network Decisions via Causal Explanations and Reasoning [9.947555560412397]
本稿では、因果推論理論に基づく新しい手法TRACERを紹介し、DNN決定の根底にある因果ダイナミクスを推定する。提案手法は入力特徴に系統的に介入し,特定の変化がネットワークを介してどのように伝播するかを観察し,内部の活性化と最終的な出力に影響を与える。 TRACERはさらに、モデルバイアスの可能性のある反ファクトを生成することで説明可能性を高め、誤分類に対する対照的な説明を提供する。
論文参考訳（メタデータ） (2024-10-07T20:44:53Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
SynthTree: Co-supervised Local Model Synthesis for Explainable Prediction [15.832975722301011]
本稿では,最小限の精度で説明可能性を向上させる手法を提案する。我々は,AI技術を利用してノードを推定する新しい手法を開発した。我々の研究は、統計的方法論が説明可能なAIを前進させる上で重要な役割を担っている。
論文参考訳（メタデータ） (2024-06-16T14:43:01Z)
POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning [17.644279061872442]
値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。本稿では, 潜在的に最適な関節動作を認識し, トレーニング中の損失により高い重みを割り当てるPOWQmix(Possally Optimal Joint Actions Weighted Qmix)アルゴリズムを提案する。行列ゲーム,難易度の高い捕食者前処理,およびStarCraft II Multi-Agent Challenge環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-13T03:27:35Z)
A Neuro-Symbolic Approach to Multi-Agent RL for Interpretability and Probabilistic Decision Making [42.503612515214044]
マルチエージェント強化学習(MARL)は、複数のエージェントが共存し、共有リソースと競合するシステムにおいて、実行時の意思決定に適している。ディープラーニングベースの一般的なMARLソリューションを実世界の問題に適用することは、解釈可能性、サンプル効率、部分観測可能性などの問題に悩まされる。本稿では,ニューロシンボリック手法を用いて,意思決定を分散協調的MARLエージェントで処理するイベント駆動型定式化を提案する。
論文参考訳（メタデータ） (2024-02-21T00:16:08Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
Boosting Value Decomposition via Unit-Wise Attentive State Representation for Cooperative Multi-Agent Reinforcement Learning [11.843811402154408]
半可観測性を緩和し,UNSR(UNit-wise Attentive State Representation)による協調を効果的に促進する,シンプルかつ強力な手法を提案する。 UNSRでは、各エージェントは変換器ブロックから出力されるコンパクトで不整合な単位状態表現を学習し、その局所的なアクション値関数を生成する。実験の結果,Star IICraftマイクロマネジメントの課題に対して,ソリッドベースラインよりも優れた性能とデータ効率が得られた。
論文参考訳（メタデータ） (2023-05-12T00:33:22Z)
Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。本稿では,両経路の分岐点に位置する新しい手法を提案する。我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文参考訳（メタデータ） (2022-12-09T14:29:57Z)
On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文参考訳（メタデータ） (2022-06-27T06:20:37Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Exploring layerwise decision making in DNNs [1.766593834306011]
ノードの離散的なサンプルアクティベーション値をバイナリ表現として符号化することにより、決定木を抽出できることが示される。次に、モデルの各レイヤの解釈を生成するために、これらの決定木と既存の特徴属性技術を組み合わせる。
論文参考訳（メタデータ） (2022-02-01T11:38:59Z)
Weakly Supervised Semantic Segmentation via Alternative Self-Dual Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文参考訳（メタデータ） (2021-12-17T11:56:56Z)
Multi-Modal Mutual Information Maximization: A Novel Approach for Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文参考訳（メタデータ） (2021-12-13T08:58:03Z)
Cooperative Policy Learning with Pre-trained Heterogeneous Observation Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文参考訳（メタデータ） (2020-12-24T04:52:29Z)
Genetic Adversarial Training of Decision Trees [6.85316573653194]
遺伝的アルゴリズムに基づく決定木のアンサンブルに関する新しい学習手法を提案し、その精度と敵対的な摂動に対する堅牢性を最大化するための決定木を訓練することができる。本アルゴリズムをMeta-Silvae (MS) というツールに実装し, 対人訓練に用いる参照データセットを用いて実験的に評価した。
論文参考訳（メタデータ） (2020-12-21T14:05:57Z)
Information State Embedding in Partially Observable Cooperative Multi-Agent Reinforcement Learning [19.617644643147948]
エージェントの履歴を圧縮する情報状態埋め込みの概念を導入する。圧縮誤差が分散制御における結果値関数にどのように影響するかを定量化する。提案された組込み学習パイプラインは、既存の(部分的に観測可能な)MARLアルゴリズムのブラックボックスを開く。
論文参考訳（メタデータ） (2020-04-02T16:03:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。