Fugu-MT 論文翻訳(概要): Counterfactual Explainer Framework for Deep Reinforcement Learning Models Using Policy Distillation

論文の概要: Counterfactual Explainer Framework for Deep Reinforcement Learning Models Using Policy Distillation

arxiv url: http://arxiv.org/abs/2305.16532v3
Date: Sat, 7 Oct 2023 11:34:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 12:05:15.388066
Title: Counterfactual Explainer Framework for Deep Reinforcement Learning Models Using Policy Distillation
Title（参考訳）: 政策蒸留を用いた深層強化学習モデルのための実例記述フレームワーク
Authors: Amir Samadi, Konstantinos Koufos, Kurt Debattista and Mehrdad Dianati
Abstract要約: 本稿では,ブラックボックスDRLによる意思決定を説明するために,新たなCF(Counterfactual)説明フレームワークを提案する。本分析は,DRLの深い基盤となる様々な決定に対して,提案手法が妥当かつ有意義に説明できることを示す。
参考スコア（独自算出の注目度）: 14.487499365398333
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Reinforcement Learning (DRL) has demonstrated promising capability in solving complex control problems. However, DRL applications in safety-critical systems are hindered by the inherent lack of robust verification techniques to assure their performance in such applications. One of the key requirements of the verification process is the development of effective techniques to explain the system functionality, i.e., why the system produces specific results in given circumstances. Recently, interpretation methods based on the Counterfactual (CF) explanation approach have been proposed to address the problem of explanation in DRLs. This paper proposes a novel CF explanation framework to explain the decisions made by a black-box DRL. To evaluate the efficacy of the proposed explanation framework, we carried out several experiments in the domains of automated driving systems and Atari Pong game. Our analysis demonstrates that the proposed framework generates plausible and meaningful explanations for various decisions made by deep underlying DRLs. Source codes are available at: \url{https://github.com/Amir-Samadi/Counterfactual-Explanation}
Abstract（参考訳）: 深層強化学習(DRL)は複雑な制御問題を解く上で有望な能力を示した。しかし、安全クリティカルなシステムにおけるDRLの応用は、そのようなアプリケーションの性能を保証するための堅牢な検証技術が固有の欠如によって妨げられている。検証プロセスの重要な要件の1つは、システム機能を説明する効果的な技術、すなわちシステムが特定の状況で特定の結果を生成する理由の開発である。近年,DRLにおける説明問題に対処するために,対実的(CF)説明法に基づく解釈手法が提案されている。本稿では,ブラックボックスDRLによる決定を説明するための新しいCF説明フレームワークを提案する。提案手法の有効性を評価するため,自動走行システムおよびatari pongゲームの分野で,いくつかの実験を行った。本分析は,DRLの深い基盤となる様々な決定に対して,提案手法が妥当かつ有意義に説明できることを示す。ソースコードは: \url{https://github.com/Amir-Samadi/Counterfactual-Explanation}

関連論文リスト

Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文参考訳（メタデータ） (2026-01-15T08:09:04Z)
RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems [98.98963933669751]
問題が発生したら、複数の抽象化を提案できるモデルをトレーニングし、続いてソリューション構築のインセンティブを与えるRLを作ります。この結果、RLトレーニングパラダイムはRLADと呼ばれ、抽象化ジェネレータとソリューションジェネレータを共同で訓練する。我々は、大規模なテスト予算で多くのソリューションを生成するよりも、より多くのテスト時間計算を抽象化の生成に割り当てることが、パフォーマンスに有益であることを示しています。
論文参考訳（メタデータ） (2025-10-02T17:44:23Z)
DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding [66.07724324530844]
動的推論時間推論のためのルールベースの強化学習フレームワークであるDocThinkerを提案する。本手法は破滅的な忘れ込みを軽減し,適応性と透明性を両立させる。本研究は,MLLMに基づく文書理解における説明可能性と適応性を高めるための強力な代替手段として,RLに注目した。
論文参考訳（メタデータ） (2025-08-12T03:06:55Z)
DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文参考訳（メタデータ） (2025-07-29T17:55:23Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。 DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文参考訳（メタデータ） (2024-08-19T09:39:01Z)
SAFE-RL: Saliency-Aware Counterfactual Explainer for Deep Reinforcement Learning Policies [13.26174103650211]
学習されたポリシーの説明可能性の欠如は、自動運転システムのような安全クリティカルなアプリケーションへの取り込みを妨げる。対実的(CF)説明は、最近、ブラックボックスディープラーニング(DL)モデルを解釈する能力で有名になった。そこで本稿では,過去の観測状態の列にまたがる最も影響力のある入力画素を特定するために,サリエンシマップを提案する。我々は,ADS,Atari Pong,Pacman,Space-invadersゲームなど,多種多様な領域におけるフレームワークの有効性を評価する。
論文参考訳（メタデータ） (2024-04-28T21:47:34Z)
Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文参考訳（メタデータ） (2024-02-07T21:58:40Z)
Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文参考訳（メタデータ） (2023-04-20T17:11:05Z)
XDQN: Inherently Interpretable DQN through Mimicking [0.0]
我々は、模倣によって訓練された解釈可能なポリシーモデルを用いて、DQNの説明可能なバリエーションであるXDQNを提案する。 XDQNは,航空交通管理の需要・容量バランス問題に関連する3つのシナリオで評価される。
論文参考訳（メタデータ） (2023-01-08T13:39:58Z)
Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文参考訳（メタデータ） (2021-11-29T06:29:49Z)
Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文参考訳（メタデータ） (2021-11-18T23:21:00Z)
Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework and Survey [0.7366405857677226]
強化学習(Reinforcement Learning, RL)法は、ブロードXAIの開発に必要な認知モデルのための潜在的なバックボーンを提供する。 RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。本稿では,現在のXRL研究を統一し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework (CXF) という概念的フレームワークを導入することを目的とする。
論文参考訳（メタデータ） (2021-08-20T05:18:50Z)
A new interpretable unsupervised anomaly detection method based on residual explanation [47.187609203210705]
本稿では,大規模システムにおけるAEベースのADの制限に対処する新しい解釈可能性手法であるRXPを提案する。実装の単純さ、計算コストの低さ、決定論的振る舞いが特徴である。実鉄道路線のデータを用いた実験において,提案手法はSHAPよりも優れた性能を示した。
論文参考訳（メタデータ） (2021-03-14T15:35:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。