論文の概要: Counterfactual Explanations for Continuous Action Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12701v1
- Date: Mon, 19 May 2025 04:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.408448
- Title: Counterfactual Explanations for Continuous Action Reinforcement Learning
- Title(参考訳): 継続的行動強化学習のための実例説明
- Authors: Shuyang Dong, Shangtong Zhang, Lu Feng,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、医療やロボティクスといった分野において大きな可能性を秘めている。
シナリオに対処する対物的説明は、RL決定を理解するための有望な道を提供するが、連続的なアクション空間では未探索のままである。
本稿では,連続動作RLにおける反実的説明を生成するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 17.78966386098786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has shown great promise in domains like healthcare and robotics but often struggles with adoption due to its lack of interpretability. Counterfactual explanations, which address "what if" scenarios, provide a promising avenue for understanding RL decisions but remain underexplored for continuous action spaces. We propose a novel approach for generating counterfactual explanations in continuous action RL by computing alternative action sequences that improve outcomes while minimizing deviations from the original sequence. Our approach leverages a distance metric for continuous actions and accounts for constraints such as adhering to predefined policies in specific states. Evaluations in two RL domains, Diabetes Control and Lunar Lander, demonstrate the effectiveness, efficiency, and generalization of our approach, enabling more interpretable and trustworthy RL applications.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、医療やロボティクスといった分野において大きな可能性を秘めている。
シナリオに対処する対物的説明は、RL決定を理解するための有望な道を提供するが、連続的なアクション空間では未探索のままである。
本稿では,連続動作RLにおける反実的説明を生成するための新しい手法を提案する。
我々のアプローチは、連続的な行動と特定の状態における事前定義されたポリシーに固執するなどの制約を考慮に入れた距離メトリックを利用する。
ダイアベテス制御とルナーランダーの2つのRL領域における評価は、我々のアプローチの有効性、効率、一般化を実証し、より解釈可能で信頼性の高いRLアプリケーションを可能にする。
関連論文リスト
- Behaviour Discovery and Attribution for Explainable Reinforcement Learning [6.123880364445758]
オフラインRL軌道における行動発見と行動帰属の枠組みを提案する。
本手法は, 意味のある行動セグメントを同定し, より精密で詳細な説明を可能にする。
このアプローチは、最小限の変更で、多様な環境に適応できます。
論文 参考訳(メタデータ) (2025-03-19T08:06:00Z) - Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning [22.333460316347264]
本稿では,拡散型ポリシーに適した行動規則化RLフレームワークであるBDPOを紹介する。
我々は,行動制約を尊重しながら最適なポリシーを生成する,効率的な2時間スケールアクタークリティカルなRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-07T09:30:35Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Budgeting Counterfactual for Offline RL [25.918011878015136]
本稿では,トレーニング中のアウト・オブ・ディストリビューション・アクションの量を明示的に制限する手法を提案する。
そこで本研究では,D4RL ベンチマークのタスクにおける最先端のオフライン RL 手法よりも,本手法の全体的な性能がよいことを示す。
論文 参考訳(メタデータ) (2023-07-12T17:47:35Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。