論文の概要: On Generating Explanations for Reinforcement Learning Policies: An Empirical Study
- arxiv url: http://arxiv.org/abs/2309.16960v3
- Date: Mon, 14 Oct 2024 00:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:02:48.701635
- Title: On Generating Explanations for Reinforcement Learning Policies: An Empirical Study
- Title(参考訳): 強化学習政策の解説作成に関する実証的研究
- Authors: Mikihisa Yuasa, Huy T. Tran, Ramavarapu S. Sreenivas,
- Abstract要約: 本稿では、ポリシーの説明を提供するために設計されたテキストリニア時間論理式について紹介する。
我々の焦点は、政策によって達成される最終的な目的と、実行を通じて維持される前提条件の両方を解明する説明である。
- 参考スコア(独自算出の注目度): 2.3418061477154786
- License:
- Abstract: Understanding a \textit{reinforcement learning} policy, which guides state-to-action mappings to maximize rewards, necessitates an accompanying explanation for human comprehension. In this paper, we introduce a set of \textit{linear temporal logic} formulae designed to provide explanations for policies, and an algorithm for searching through those formulae for the one that best explains a given policy. Our focus is on explanations that elucidate both the ultimate objectives accomplished by the policy and the prerequisite conditions it upholds throughout its execution. The effectiveness of our proposed approach is illustrated through a simulated game of capture-the-flag and a car-parking environment,
- Abstract(参考訳): 報酬を最大化するためにステート・ツー・アクション・マッピングを導く「textit{reinforcement learning}」ポリシーを理解するには、人間の理解に付随する説明が必要である。
本稿では、ポリシーの説明を提供するために設計された‘textit{linear temporal logic} 式と、与えられたポリシーを最もよく説明するようにそれらの公式を探索するアルゴリズムを紹介する。
我々の焦点は、政策によって達成される最終的な目的と、実行を通じて維持される前提条件の両方を解明する説明である。
提案手法の有効性は, キャプション・ザ・フラッグと自動車駐車環境のシミュレーションゲームを通して明らかにした。
関連論文リスト
- Learning Rules Explaining Interactive Theorem Proving Tactic Prediction [5.229806149125529]
この問題を帰納論理プログラミング(ILP)タスクとして表現する。
ILP表現を使用することで、追加で計算コストの高いプロパティをエンコードすることで、機能空間を豊かにしました。
我々は、このリッチな特徴空間を用いて、与えられた証明状態に戦術がいつ適用されたかを説明する規則を学ぶ。
論文 参考訳(メタデータ) (2024-11-02T09:18:33Z) - PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods [0.0]
本稿では,分散強化学習フレームワークとポリシ勾配アルゴリズムを組み合わせた新しいアルゴリズムPG-Rainbowを紹介する。
政策ネットワークに報酬分配情報を統合することで、政策エージェントが強化された能力を取得するという経験的結果を示す。
論文 参考訳(メタデータ) (2024-07-18T04:18:52Z) - End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations [15.530907808235945]
構造化状態と象徴的ポリシーを共同学習するための,ニューロシンボリックな枠組みを提案する。
我々は、GPT-4に学習ポリシーと意思決定に関するテキスト説明を生成するパイプラインを設計する。
我々は,9つのアタリ課題に対するアプローチの有効性を検証するとともに,政策と意思決定に関するGPTによる説明を行う。
論文 参考訳(メタデータ) (2024-03-19T05:21:20Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Discrete Reasoning Templates for Natural Language Understanding [79.07883990966077]
我々は,複雑な質問をより単純な質問に分解する手法を提案する。
事前定義された推論テンプレートの指示に従って最終回答を導出する。
我々のアプローチは、解釈可能でありながら最先端技術と競合し、監督をほとんど必要としないことを示す。
論文 参考訳(メタデータ) (2021-04-05T18:56:56Z) - What Did You Think Would Happen? Explaining Agent Behaviour Through
Intended Outcomes [30.056732656973637]
本稿では,意図した結果の概念に基づく強化学習の新たな説明方法を提案する。
これらの説明は、エージェントがそのアクションによって達成しようとしている結果を記述している。
従来の強化学習では,この性質のポストホックな説明のための一般的な手法は不可能であることを示す。
論文 参考訳(メタデータ) (2020-11-10T12:05:08Z) - Sequential Explanations with Mental Model-Based Policies [20.64968620536829]
本研究では,説明者の精神モデルに基づく説明を提供するための強化学習フレームワークを適用した。
我々は、説明が選ばれ、参加者に提示される新しいオンライン人間実験を行う。
以上の結果から,精神モデルに基づく政策は,複数のシーケンシャルな説明よりも解釈可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-17T14:43:46Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。