Fugu-MT 論文翻訳(概要): Interpretability for Conditional Coordinated Behavior in Multi-Agent Reinforcement Learning

論文の概要: Interpretability for Conditional Coordinated Behavior in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2304.10375v1
Date: Thu, 20 Apr 2023 15:13:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-21 12:56:12.453068
Title: Interpretability for Conditional Coordinated Behavior in Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習における条件付き協調行動の解釈可能性
Authors: Yoshinari Motokawa and Toshiharu Sugawara
Abstract要約: 条件付注意(DA6-X)以降の分散注目アクタアーキテクチャと呼ばれるモデルレス強化学習アーキテクチャを提案する。基礎となる原理は、環境の条件状態を表すサリエンシベクトルの再利用である。 DA6-Xの柔軟性を持つエージェントは条件付き状態の付加情報を考慮し,優れた性能を示すことを示す。
参考スコア（独自算出の注目度）: 2.741266294612776
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a model-free reinforcement learning architecture, called distributed attentional actor architecture after conditional attention (DA6-X), to provide better interpretability of conditional coordinated behaviors. The underlying principle involves reusing the saliency vector, which represents the conditional states of the environment, such as the global position of agents. Hence, agents with DA6-X flexibility built into their policy exhibit superior performance by considering the additional information in the conditional states during the decision-making process. The effectiveness of the proposed method was experimentally evaluated by comparing it with conventional methods in an objects collection game. By visualizing the attention weights from DA6-X, we confirmed that agents successfully learn situation-dependent coordinated behaviors by correctly identifying various conditional states, leading to improved interpretability of agents along with superior performance.
Abstract（参考訳）: 本稿では,条件付き協調行動の解釈性を向上させるために,分散注意アクターアーキテクチャ (distributed attentional actor architecture after conditional attention, da6-x) というモデルフリー強化学習アーキテクチャを提案する。基礎となる原理は、エージェントのグローバルな位置のような環境の条件状態を表すサリエンシベクトルを再利用することである。したがって、DA6-Xの柔軟性を持つエージェントは、意思決定プロセス中に条件状態の付加情報を考慮し、優れた性能を示す。オブジェクト収集ゲームにおいて,従来の手法と比較し,提案手法の有効性を実験的に評価した。 DA6-Xから注意重みを可視化することにより,様々な条件条件を正しく識別し,状況依存的な協調行動の学習に成功し,エージェントの解釈性の向上と性能の向上を実現した。

関連論文リスト

OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)
CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文参考訳（メタデータ） (2025-07-23T02:26:33Z)
Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文参考訳（メタデータ） (2025-07-08T11:45:51Z)
AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence [54.317522790545304]
本稿では,言語エージェントの動作制約やルーチンに対するコンプライアンスを評価するための,デュアルシステムフレームワークであるAgentOrcaを提案する。本フレームワークは,エージェントの自然言語プロンプトと,それに対応する実行可能コードが,自動検証のための基礎的真理として機能することを通じて,行動制約とルーチンを符号化する。以上の結果から,o1のような大きな推論モデルではコンプライアンスが良好であり,他のモデルではパフォーマンスが著しく低下していることが明らかとなった。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
On Causally Disentangled State Representation Learning for Reinforcement Learning based Recommender Systems [17.750449033873036]
Reinforcement Learning-based Recommender Systems (RLRS)では、ユーザインタラクションの複雑さとダイナミズムは高次元でノイズの多い状態空間をもたらすことが多い。状態を分解し、textbfCausal-textbfIntextbfDispensable textbfState Representationsを抽出するための革新的な因果的アプローチを導入する。
論文参考訳（メタデータ） (2024-07-18T01:41:05Z)
Concept Matching with Agent for Out-of-Distribution Detection [19.407364109506904]
本稿では,エージェントパラダイムをアウト・オブ・ディストリビューション(OOD)検出タスクに統合する手法を提案する。提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。実験結果から, ゼロショット法とトレーニング要求法の両方よりもCMAの方が優れた性能を示した。
論文参考訳（メタデータ） (2024-05-27T02:27:28Z)
Learning Interpretable Policies in Hindsight-Observable POMDPs through Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。 PSRLの中心は、教師なし学習と教師なし学習の融合である。 PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文参考訳（メタデータ） (2024-02-14T16:23:23Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Quantifying Agent Interaction in Multi-agent Reinforcement Learning for Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文参考訳（メタデータ） (2023-10-11T06:09:26Z)
State Representations as Incentives for Reinforcement Learning Agents: A Sim2Real Analysis on Robotic Grasping [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な表現の効果について検討する。手作りの数値状態から符号化された画像ベース表現に至るまで、状態表現の連続体が定義される。シミュレーションにおけるエージェントの課題解決能力に対する各表現の影響と実ロボットへの学習方針の伝達可能性について検討した。
論文参考訳（メタデータ） (2023-09-21T11:41:22Z)
Knowledge-based Reasoning and Learning under Partial Observability in Ad Hoc Teamwork [4.454557728745761]
本稿では,非単調な論理的推論に基づいてアドホックエージェントの動作を決定するアーキテクチャを提案する。これは、他のエージェントの行動を予測するモデルのオンライン選択、適応、学習をサポートする。単純なシナリオと複雑なシナリオの両方において、アーキテクチャのパフォーマンスが、最先端のデータ駆動ベースラインと同等か、あるいは同等であることを示す。
論文参考訳（メタデータ） (2023-06-01T15:21:27Z)
Manifold-Aware Self-Training for Unsupervised Domain Adaptation on Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文参考訳（メタデータ） (2023-05-18T08:42:41Z)
Beyond Rewards: a Hierarchical Perspective on Offline Multiagent Behavioral Analysis [14.656957226255628]
本稿では,マルチエージェント領域における行動クラスタの発見のためのモデルに依存しない手法を提案する。我々のフレームワークはエージェントの基盤となる学習アルゴリズムを前提とせず、潜伏状態やモデルへのアクセスを必要とせず、完全にオフラインで観察データを使って訓練することができる。
論文参考訳（メタデータ） (2022-06-17T23:07:33Z)
Explaining Reinforcement Learning Policies through Counterfactual Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文参考訳（メタデータ） (2022-01-29T00:52:37Z)
Feature-Based Interpretable Reinforcement Learning based on State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。強化学習におけるリスクに関する局所的な説明方法を提案する。
論文参考訳（メタデータ） (2021-05-14T23:43:11Z)
Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。 2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。 4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文参考訳（メタデータ） (2020-07-14T05:46:27Z)
Agent Modelling under Partial Observability for Deep Reinforcement Learning [12.903487594031276]
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
論文参考訳（メタデータ） (2020-06-16T18:43:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。