論文の概要: On Generating Explanations for Reinforcement Learning Policies: An
Empirical Study
- arxiv url: http://arxiv.org/abs/2309.16960v2
- Date: Wed, 6 Mar 2024 02:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:52:02.434795
- Title: On Generating Explanations for Reinforcement Learning Policies: An
Empirical Study
- Title(参考訳): 強化学習政策の説明の生成について--実証的研究
- Authors: Mikihisa Yuasa, Huy T. Tran, Ramavarapu S. Sreenivas
- Abstract要約: ポリシーの説明を提供するために,テキストリニア時相論理式(LTL)を導入する。
私たちの焦点は、政策によって達成される最終的な目的と、実行を通じて維持される前提条件の両方を解明する説明を作ることにあります。
- 参考スコア(独自算出の注目度): 2.631955426232593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding a \textit{reinforcement learning} policy, which guides
state-to-action mappings to maximize rewards, necessitates an accompanying
explanation for human comprehension. In this paper, we introduce a set of
\textit{linear temporal logic} (LTL) formulae designed to provide explanations
for policies, and an algorithm for searching through those formulae for the one
that best explains a given policy. Our focus is on crafting explanations that
elucidate both the ultimate objectives accomplished by the policy and the
prerequisite conditions it upholds throughout its execution. These LTL-based
explanations feature a structured representation, which is particularly
well-suited for local-search techniques. The effectiveness of our proposed
approach is illustrated through a simulated game of capture the flag and a
car-parking environment. The paper concludes with suggested directions for
future
- Abstract(参考訳): 報酬を最大化するために状態と行動のマッピングを導く \textit{reinforcement learning}ポリシーを理解するには、人間の理解に付随する説明が必要である。
本稿では、ポリシーの説明を提供するために設計された一連の \textit{linear temporal logic} (ltl) 式と、与えられたポリシーを最もよく説明する論理式を探索するアルゴリズムを紹介する。
我々の焦点は、政策によって達成された究極の目的と、その実行中に維持される前提条件の両方を解明する説明を作ることである。
これらのLTLに基づく説明は構造化表現を特徴とし、特に局所探索技術に適している。
提案手法の有効性は,フラグを捕捉するシミュレーションゲームと自動車駐車環境によって説明される。
論文は将来の方向性で締めくくります
関連論文リスト
- Towards a Framework for Evaluating Explanations in Automated Fact Verification [12.904145308839997]
NLPの深いニューラルモデルがより複雑になるにつれて、それらを解釈する必要性はさらに高くなる。
急激な関心は、予測の簡潔で一貫性のある正当化を提供するための合理的な説明に現れている。
我々は,それらの評価を体系的に支援するための説明の合理化について,重要な概念と特性に関する公式な枠組みを提唱する。
論文 参考訳(メタデータ) (2024-03-29T17:50:28Z) - Clash of the Explainers: Argumentation for Context-Appropriate
Explanations [6.8285745209093145]
特定のコンテキストに最も適したアプローチはひとつもありません。
AIの説明容易性を効果的にするためには、説明とそれらがどのように提示されるかは、説明を受けるステークホルダーに向けられる必要がある。
本稿では、関係する利害関係者の精神モデルと、多説明者による議論問題を解決する理性コンポーネントと、利害関係者に適切に説明すべきAIモデルとからなるモジュラー推論システムを提案する。
論文 参考訳(メタデータ) (2023-12-12T09:52:30Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Complementary Explanations for Effective In-Context Learning [77.83124315634386]
大規模言語モデル (LLM) は、説明のインプロンプトから学習する際、顕著な能力を示した。
この研究は、文脈内学習に説明が使用されるメカニズムをよりよく理解することを目的としている。
論文 参考訳(メタデータ) (2022-11-25T04:40:47Z) - Discrete Reasoning Templates for Natural Language Understanding [79.07883990966077]
我々は,複雑な質問をより単純な質問に分解する手法を提案する。
事前定義された推論テンプレートの指示に従って最終回答を導出する。
我々のアプローチは、解釈可能でありながら最先端技術と競合し、監督をほとんど必要としないことを示す。
論文 参考訳(メタデータ) (2021-04-05T18:56:56Z) - What Did You Think Would Happen? Explaining Agent Behaviour Through
Intended Outcomes [30.056732656973637]
本稿では,意図した結果の概念に基づく強化学習の新たな説明方法を提案する。
これらの説明は、エージェントがそのアクションによって達成しようとしている結果を記述している。
従来の強化学習では,この性質のポストホックな説明のための一般的な手法は不可能であることを示す。
論文 参考訳(メタデータ) (2020-11-10T12:05:08Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Sequential Explanations with Mental Model-Based Policies [20.64968620536829]
本研究では,説明者の精神モデルに基づく説明を提供するための強化学習フレームワークを適用した。
我々は、説明が選ばれ、参加者に提示される新しいオンライン人間実験を行う。
以上の結果から,精神モデルに基づく政策は,複数のシーケンシャルな説明よりも解釈可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-17T14:43:46Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。