論文の概要: ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.11211v1
- Date: Mon, 21 Mar 2022 13:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 05:44:02.110813
- Title: ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement
Learning
- Title(参考訳): ReCCoVER:説明可能な強化学習のための因果関係の検出
- Authors: Jasmina Gajcin and Ivana Dusparic
- Abstract要約: 因果的混乱(英: Causal confusion)とは、エージェントが状態空間全体にわたって保持されない可能性のある特徴間の急激な相関を学習する現象である。
本稿では,エージェントの推論における因果的混乱を検出するアルゴリズムであるReCCoVERを提案する。
- 参考スコア(独自算出の注目度): 2.984934409689467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite notable results in various fields over the recent years, deep
reinforcement learning (DRL) algorithms lack transparency, affecting user trust
and hindering their deployment to high-risk tasks. Causal confusion refers to a
phenomenon where an agent learns spurious correlations between features which
might not hold across the entire state space, preventing safe deployment to
real tasks where such correlations might be broken. In this work, we examine
whether an agent relies on spurious correlations in critical states, and
propose an alternative subset of features on which it should base its decisions
instead, to make it less susceptible to causal confusion. Our goal is to
increase transparency of DRL agents by exposing the influence of learned
spurious correlations on its decisions, and offering advice to developers about
feature selection in different parts of state space, to avoid causal confusion.
We propose ReCCoVER, an algorithm which detects causal confusion in agent's
reasoning before deployment, by executing its policy in alternative
environments where certain correlations between features do not hold. We
demonstrate our approach in taxi and grid world environments, where ReCCoVER
detects states in which an agent relies on spurious correlations and offers a
set of features that should be considered instead.
- Abstract(参考訳): 近年の様々な分野における顕著な成果にもかかわらず、深層強化学習(DRL)アルゴリズムは透明性を欠き、ユーザの信頼に影響を与え、リスクの高いタスクへのデプロイメントを妨げている。
因果的混乱(英: Causal confusion)とは、エージェントが状態空間全体にわたって保持されない可能性のある特徴間の急激な相関を学習し、そのような相関が壊れる可能性のある実際のタスクへの安全な配置を防止する現象である。
本研究では,エージェントが臨界状態の急激な相関に依存しているかどうかを検証し,因果的混乱を生じにくくするため,その決定を根拠にすべき特徴の代替的サブセットを提案する。
我々の目標は、DRLエージェントの透明性を高めることであり、学習された刺激的相関が意思決定に与える影響を明らかにし、原因の混乱を避けるために、状態空間の異なる部分における特徴の選択について開発者にアドバイスすることである。
本研究では,機能間の相関が保持されない代替環境において,エージェントの推論における因果的混乱を検出するアルゴリズムであるreccoverを提案する。
タクシーやグリッドの世界では、エージェントがスプリアス相関に依存する状態を検出し、代わりに考慮すべき機能セットを提供するreccoverのアプローチを実演します。
関連論文リスト
- Causal Influence in Federated Edge Inference [34.487472866247586]
本稿では、未ラベルのストリーミングデータを用いて、接続性のある異種エージェントが推論を行う環境について考察する。
不確実性を克服するために、エージェントは、融合センターを通じてローカルな推論を交換することで互いに協力する。
エージェントの関与パターンや核融合センターの方針を反映した様々なシナリオを考察した。
論文 参考訳(メタデータ) (2024-05-02T13:06:50Z) - Causal State Distillation for Explainable Reinforcement Learning [16.998047658978482]
強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための強力なテクニックであるが、これらのエージェントが特定の決定を下す理由を理解することは困難である。
この問題に対処するために様々なアプローチが検討され、ある有望な道は報酬分解(RD)である。
RDは、エージェントの振る舞いをポストホックな方法で合理化しようとする他の方法に関連する懸念のいくつかを傍受するので、魅力的である。
我々は、より情報的な説明を提供するために、サブリワードを超えてRDの拡張を示す。
論文 参考訳(メタデータ) (2023-12-30T00:01:22Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Learning Generalizable Agents via Saliency-Guided Features Decorrelation [25.19044461705711]
特徴と判断の相関をなくすために,サリエンシガイド機能デコレーションを提案する。
RFFは高次元画像における複雑な非線形相関を推定するために利用され、サリエンシマップは変化した特徴を識別するために設計されている。
サリエンシマップの指導のもと、SGFDはサンプル再重み付けを用いて、変化した特徴に関する推定相関を最小化する。
論文 参考訳(メタデータ) (2023-10-08T09:24:43Z) - Conditional Mutual Information for Disentangled Representations in
Reinforcement Learning [13.450394764597663]
強化学習環境は、特徴間の素早い相関でトレーニングデータを生成することができる。
アンタングル表現はロバスト性を改善することができるが、特徴間の相互情報を最小化する既存のアンタングル化技術は独立した特徴を必要とする。
相関特徴を持つ高次元観測の非交叉表現を学習するRLアルゴリズムの補助的タスクを提案する。
論文 参考訳(メタデータ) (2023-05-23T14:56:19Z) - Causal Disentangled Variational Auto-Encoder for Preference
Understanding in Recommendation [50.93536377097659]
本稿では,コメンテータシステムにおける対話データから因果不整合表現を学習するためのCaD-VAE(Causal Disentangled Variational Auto-Encoder)を提案する。
この手法は構造因果モデルを用いて、潜在因子間の因果関係を記述する因果表現を生成する。
論文 参考訳(メタデータ) (2023-04-17T00:10:56Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person
Search [56.02761592710612]
モジュール・パーソン・サーチのための新しいアテンション・アウェア・リレーション・ミキサー(ARM)を提案する。
私たちのARMモジュールはネイティブで、きめ細かい監督やトポロジカルな仮定に依存していません。
我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-07T10:04:12Z) - Robust Event-Driven Interactions in Cooperative Multi-Agent Learning [0.0]
本稿では,マルチエージェント学習システムにおけるエージェント間の通信を,基礎となるマルコフ決定プロセスの本質的ロバスト性を利用して削減する手法を提案する。
いわゆるロバストネス代理関数(オフライン)を計算し、エージェントがシステム内の他のエージェントを更新する前に、その状態の測定値がどれくらい逸脱するかを保守的に示す。
これにより、完全に分散された決定関数が実現され、エージェントが他を更新する必要があるかどうかを判断できるようになる。
論文 参考訳(メタデータ) (2022-04-07T11:00:39Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。