論文の概要: ACTER: Diverse and Actionable Counterfactual Sequences for Explaining
and Diagnosing RL Policies
- arxiv url: http://arxiv.org/abs/2402.06503v1
- Date: Fri, 9 Feb 2024 16:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:14:19.483674
- Title: ACTER: Diverse and Actionable Counterfactual Sequences for Explaining
and Diagnosing RL Policies
- Title(参考訳): acter: rlポリシーの説明と診断のための多様で実行可能な反事実シーケンス
- Authors: Jasmina Gajcin and Ivana Dusparic
- Abstract要約: ACTER(Actionable Counterfactual Sequences for Explaining Reinforcement Learning Outcomes)は、反現実列を生成するアルゴリズムである。
本稿では,ACTERが動作可能な多種多様な逆ファクト配列を生成可能であることを示す。
我々は,ACTERが生成した説明が,ユーザによる障害の特定と修正にどのように役立つかを,ユーザスタディで調査する。
- 参考スコア(独自算出の注目度): 2.0341936392563063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how failure occurs and how it can be prevented in reinforcement
learning (RL) is necessary to enable debugging, maintain user trust, and
develop personalized policies. Counterfactual reasoning has often been used to
assign blame and understand failure by searching for the closest possible world
in which the failure is avoided. However, current counterfactual state
explanations in RL can only explain an outcome using just the current state
features and offer no actionable recourse on how a negative outcome could have
been prevented. In this work, we propose ACTER (Actionable Counterfactual
Sequences for Explaining Reinforcement Learning Outcomes), an algorithm for
generating counterfactual sequences that provides actionable advice on how
failure can be avoided. ACTER investigates actions leading to a failure and
uses the evolutionary algorithm NSGA-II to generate counterfactual sequences of
actions that prevent it with minimal changes and high certainty even in
stochastic environments. Additionally, ACTER generates a set of multiple
diverse counterfactual sequences that enable users to correct failure in the
way that best fits their preferences. We also introduce three diversity metrics
that can be used for evaluating the diversity of counterfactual sequences. We
evaluate ACTER in two RL environments, with both discrete and continuous
actions, and show that it can generate actionable and diverse counterfactual
sequences. We conduct a user study to explore how explanations generated by
ACTER help users identify and correct failure.
- Abstract(参考訳): ユーザ信頼を維持し,パーソナライズされたポリシを開発するためには,障害の発生状況と強化学習(RL)の防止方法を理解する必要がある。
反事実推論は、失敗を避ける最寄りの可能な世界を探すことによって、責任を割り当て、失敗を理解するためにしばしば用いられる。
しかし、RLにおける現在の事実状態の説明は、現在の状態の特徴のみを用いて結果を説明するだけで、負の結果がどのように防止されたかについての実用的な説明は得られない。
そこで本研究では,障害を回避するための提案手法としてacter(actionable counterfactual sequences for explained reinforcement learning outcomes)を提案する。
ACTERは失敗につながる行動を調査し、進化アルゴリズムNSGA-IIを用いて、統計的環境においても最小限の変化と高い確実性でそれを防ぐ行動の反ファクト的シーケンスを生成する。
さらにACTERは、ユーザが自分の好みに最も合う方法で障害を修正できるように、多種多様なカウンターファクトシーケンスを生成する。
また、3つの多様性指標を導入し、カウンターファクトシーケンスの多様性を評価する。
我々は,2つのRL環境におけるACTERを離散的かつ連続的な動作で評価し,動作可能な多種多様な反事実列を生成することを示す。
我々は,ACTERが生成した説明が,ユーザによる障害の特定と修正にどのように役立つかを,ユーザスタディで調査する。
関連論文リスト
- Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - SAFE-GIL: SAFEty Guided Imitation Learning [7.979892202477701]
行動クローニングは、ロボットが専門家の監督を観察し、制御ポリシーを学ぶという、模倣学習の一般的なアプローチである。
しかし、行動のクローンは、専門家のデモンストレーションから逸脱し、破滅的なシステム障害につながる可能性があるため、ポリシーのエラーが複雑になる"複合的エラー"問題に悩まされる。
本稿では,データ収集の際,専門家を敵対的障害から誘導する非政治行動クローニング手法であるSAFE-GILを提案する。
論文 参考訳(メタデータ) (2024-04-08T07:25:25Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - Learning impartial policies for sequential counterfactual explanations
using Deep Reinforcement Learning [0.0]
近年,SCFの発見政策を学習し,拡張性を高めるための強化学習法が提案されている。
本研究では,特定の行動に対する偏見など,望ましくない特性を持つポリシーを生じるような既存手法の欠点を同定する。
この効果を緩和するために,分類器の出力確率を用いてより情報的な報酬を生成することを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:50:47Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - RACCER: Towards Reachable and Certain Counterfactual Explanations for
Reinforcement Learning [2.0341936392563063]
本稿では,RLエージェントの動作に対する反実的説明を生成するための,RACCERを提案する。
木探索を用いて、定義された特性に基づいて最も適切なカウンターファクトを見つける。
我々はRACCERを2つのタスクで評価し、また、RL固有の対策がエージェントの行動をよりよく理解するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-03-08T09:47:00Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Recomposition vs. Prediction: A Novel Anomaly Detection for Discrete
Events Based On Autoencoder [5.781280693720236]
侵入検知の分野で最も難しい問題の1つは、離散イベントログの異常検出である。
離散イベントログのDeep Autoencoderベースの異常検出手法であるDabLogを提案する。
解析(符号化)と再構成(復号化)により、シーケンスが正常または異常かどうかを判定します。
論文 参考訳(メタデータ) (2020-12-27T16:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。