論文の概要: Interpretability for Conditional Coordinated Behavior in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.10375v1
- Date: Thu, 20 Apr 2023 15:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:56:12.453068
- Title: Interpretability for Conditional Coordinated Behavior in Multi-Agent
Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における条件付き協調行動の解釈可能性
- Authors: Yoshinari Motokawa and Toshiharu Sugawara
- Abstract要約: 条件付注意(DA6-X)以降の分散注目アクタアーキテクチャと呼ばれるモデルレス強化学習アーキテクチャを提案する。
基礎となる原理は、環境の条件状態を表すサリエンシベクトルの再利用である。
DA6-Xの柔軟性を持つエージェントは条件付き状態の付加情報を考慮し,優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a model-free reinforcement learning architecture, called
distributed attentional actor architecture after conditional attention (DA6-X),
to provide better interpretability of conditional coordinated behaviors. The
underlying principle involves reusing the saliency vector, which represents the
conditional states of the environment, such as the global position of agents.
Hence, agents with DA6-X flexibility built into their policy exhibit superior
performance by considering the additional information in the conditional states
during the decision-making process. The effectiveness of the proposed method
was experimentally evaluated by comparing it with conventional methods in an
objects collection game. By visualizing the attention weights from DA6-X, we
confirmed that agents successfully learn situation-dependent coordinated
behaviors by correctly identifying various conditional states, leading to
improved interpretability of agents along with superior performance.
- Abstract(参考訳): 本稿では,条件付き協調行動の解釈性を向上させるために,分散注意アクターアーキテクチャ (distributed attentional actor architecture after conditional attention, da6-x) というモデルフリー強化学習アーキテクチャを提案する。
基礎となる原理は、エージェントのグローバルな位置のような環境の条件状態を表すサリエンシベクトルを再利用することである。
したがって、DA6-Xの柔軟性を持つエージェントは、意思決定プロセス中に条件状態の付加情報を考慮し、優れた性能を示す。
オブジェクト収集ゲームにおいて,従来の手法と比較し,提案手法の有効性を実験的に評価した。
DA6-Xから注意重みを可視化することにより,様々な条件条件を正しく識別し,状況依存的な協調行動の学習に成功し,エージェントの解釈性の向上と性能の向上を実現した。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - State Representations as Incentives for Reinforcement Learning Agents: A Sim2Real Analysis on Robotic Grasping [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な表現の効果について検討する。
手作りの数値状態から符号化された画像ベース表現に至るまで、状態表現の連続体が定義される。
シミュレーションにおけるエージェントの課題解決能力に対する各表現の影響と実ロボットへの学習方針の伝達可能性について検討した。
論文 参考訳(メタデータ) (2023-09-21T11:41:22Z) - Knowledge-based Reasoning and Learning under Partial Observability in Ad
Hoc Teamwork [4.454557728745761]
本稿では,非単調な論理的推論に基づいてアドホックエージェントの動作を決定するアーキテクチャを提案する。
これは、他のエージェントの行動を予測するモデルのオンライン選択、適応、学習をサポートする。
単純なシナリオと複雑なシナリオの両方において、アーキテクチャのパフォーマンスが、最先端のデータ駆動ベースラインと同等か、あるいは同等であることを示す。
論文 参考訳(メタデータ) (2023-06-01T15:21:27Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z) - Beyond Rewards: a Hierarchical Perspective on Offline Multiagent
Behavioral Analysis [14.656957226255628]
本稿では,マルチエージェント領域における行動クラスタの発見のためのモデルに依存しない手法を提案する。
我々のフレームワークはエージェントの基盤となる学習アルゴリズムを前提とせず、潜伏状態やモデルへのアクセスを必要とせず、完全にオフラインで観察データを使って訓練することができる。
論文 参考訳(メタデータ) (2022-06-17T23:07:33Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。
2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。
4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文 参考訳(メタデータ) (2020-07-14T05:46:27Z) - Agent Modelling under Partial Observability for Deep Reinforcement
Learning [12.903487594031276]
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。
制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。
これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
論文 参考訳(メタデータ) (2020-06-16T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。