論文の概要: Learning "What-if" Explanations for Sequential Decision-Making
- arxiv url: http://arxiv.org/abs/2007.13531v3
- Date: Tue, 30 Mar 2021 17:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 12:58:50.453734
- Title: Learning "What-if" Explanations for Sequential Decision-Making
- Title(参考訳): 逐次意思決定のための「what-if」説明の学習
- Authors: Ioana Bica, Daniel Jarrett, Alihan H\"uy\"uk, Mihaela van der Schaar
- Abstract要約: 実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
- 参考スコア(独自算出の注目度): 92.8311073739295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building interpretable parameterizations of real-world decision-making on the
basis of demonstrated behavior -- i.e. trajectories of observations and actions
made by an expert maximizing some unknown reward function -- is essential for
introspecting and auditing policies in different institutions. In this paper,
we propose learning explanations of expert decisions by modeling their reward
function in terms of preferences with respect to "what if" outcomes: Given the
current history of observations, what would happen if we took a particular
action? To learn these cost-benefit tradeoffs associated with the expert's
actions, we integrate counterfactual reasoning into batch inverse reinforcement
learning. This offers a principled way of defining reward functions and
explaining expert behavior, and also satisfies the constraints of real-world
decision-making -- where active experimentation is often impossible (e.g. in
healthcare). Additionally, by estimating the effects of different actions,
counterfactuals readily tackle the off-policy nature of policy evaluation in
the batch setting, and can naturally accommodate settings where the expert
policies depend on histories of observations rather than just current states.
Through illustrative experiments in both real and simulated medical
environments, we highlight the effectiveness of our batch, counterfactual
inverse reinforcement learning approach in recovering accurate and
interpretable descriptions of behavior.
- Abstract(参考訳): 実世界の意思決定の解釈可能なパラメータ化を構築することは、実証された行動、すなわち専門家による観察と行動の軌跡に基づいて、異なる機関における政策のイントロスペクションと監査に不可欠である。
本稿では,「もしも」成果に対して,その選好の観点で報酬関数をモデル化することで,専門家の判断を学習するための説明を提案する。
専門家の行動に関連するこれらの費用対効果のトレードオフを学習するために, バッチ逆強化学習に統合する。
これは、報酬関数を定義し、専門家の振る舞いを説明するための原則化された方法を提供すると同時に、実世界の意思決定の制約を満たす。
さらに、異なる行動の効果を推定することにより、カウンターファクトリーはバッチ設定における政策評価の非政治的な性質に容易に対応でき、専門家の政策が現在の状態ではなく観測履歴に依存するような状況に自然に適応することができる。
実地および模擬医療環境における実証実験を通じて, 行動の正確かつ解釈可能な記述を回復するためのバッチ, 対実逆強化学習アプローチの有効性を強調した。
関連論文リスト
- Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Counterfactual Credit Assignment in Model-Free Reinforcement Learning [47.79277857377155]
強化学習における信用割当は、将来の報酬に対する行動の影響を測定する問題である。
我々は因果理論からモデルフリーなRL設定への反事実の概念を適応する。
我々は、将来の条件値関数をベースラインや批評家として使用するポリシーアルゴリズムのファミリーを定式化し、それらが明らかに低分散であることを示す。
論文 参考訳(メタデータ) (2020-11-18T18:41:44Z) - Fighting Copycat Agents in Behavioral Cloning from Observation Histories [85.404120663644]
模倣学習は、入力観察から専門家が選択したアクションにマップするポリシーを訓練する。
本稿では,従来の専門家の行動ニュアンスに関する過剰な情報を除去する特徴表現を学習するための敵対的アプローチを提案する。
論文 参考訳(メタデータ) (2020-10-28T10:52:10Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。