論文の概要: Learning impartial policies for sequential counterfactual explanations
using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.00523v1
- Date: Wed, 1 Nov 2023 13:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 13:29:36.873884
- Title: Learning impartial policies for sequential counterfactual explanations
using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習を用いた逐次的反事実説明のための不偏性ポリシーの学習
- Authors: E. Panagiotou, E. Ntoutsi
- Abstract要約: 近年,SCFの発見政策を学習し,拡張性を高めるための強化学習法が提案されている。
本研究では,特定の行動に対する偏見など,望ましくない特性を持つポリシーを生じるような既存手法の欠点を同定する。
この効果を緩和するために,分類器の出力確率を用いてより情報的な報酬を生成することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of explainable Artificial Intelligence (XAI), sequential
counterfactual (SCF) examples are often used to alter the decision of a trained
classifier by implementing a sequence of modifications to the input instance.
Although certain test-time algorithms aim to optimize for each new instance
individually, recently Reinforcement Learning (RL) methods have been proposed
that seek to learn policies for discovering SCFs, thereby enhancing
scalability. As is typical in RL, the formulation of the RL problem, including
the specification of state space, actions, and rewards, can often be ambiguous.
In this work, we identify shortcomings in existing methods that can result in
policies with undesired properties, such as a bias towards specific actions. We
propose to use the output probabilities of the classifier to create a more
informative reward, to mitigate this effect.
- Abstract(参考訳): 説明可能な人工知能(XAI)の分野では、シーケンシャル・カウンティファクト(SCF)の例は、入力インスタンスへの一連の修正を実装することで、訓練された分類器の決定を変更するためにしばしば使用される。
特定のテストタイムアルゴリズムは、新しいインスタンスごとに個別に最適化することを目的としているが、最近、SCFを発見するためのポリシーを学習し、スケーラビリティを向上するReinforcement Learning (RL)メソッドが提案されている。
RLの典型的なように、状態空間、アクション、報酬の仕様を含むRL問題の定式化は、しばしば曖昧である。
本研究では,特定の行動に対する偏見など,望ましくない特性を持つポリシーを生じるような既存手法の欠点を同定する。
この効果を緩和するために,分類器の出力確率を用いてより情報的な報酬を生成することを提案する。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - On Multi-objective Policy Optimization as a Tool for Reinforcement
Learning: Case Studies in Offline RL and Finetuning [24.264618706734012]
より効率的な深層強化学習アルゴリズムの開発方法について述べる。
ケーススタディとして,オフラインRLとファインタニングに注目した。
専門家の混合蒸留(DiME)について紹介する
オフラインのRLでは、DMEが最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-15T14:59:14Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Joint Contrastive Learning with Infinite Possibilities [114.45811348666898]
本稿では,新しい確率論的モデリングによるコントラスト学習における最近の発展の有用性について考察する。
コントラスト学習(Joint Contrastive Learning, JCL)という,コントラスト学習の特定の形態を導出する。
論文 参考訳(メタデータ) (2020-09-30T16:24:21Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。