論文の概要: On Generating Explanations for Reinforcement Learning Policies: An
Empirical Study
- arxiv url: http://arxiv.org/abs/2309.16960v1
- Date: Fri, 29 Sep 2023 03:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 15:38:45.070305
- Title: On Generating Explanations for Reinforcement Learning Policies: An
Empirical Study
- Title(参考訳): 強化学習政策の説明の生成について--実証的研究
- Authors: Mikihisa Yuasa, Huy T. Tran, Ramavarapu S. Sreenivas
- Abstract要約: ポリシーの説明を提供するために設計された一連の公式を紹介します。
私たちの焦点は、政策によって達成される最終的な目的と、実行を通じて維持される前提条件の両方を解明する説明を作ることにあります。
- 参考スコア(独自算出の注目度): 2.631955426232593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we introduce a set of \textit{Linear Temporal Logic} (LTL)
formulae designed to provide explanations for policies. Our focus is on
crafting explanations that elucidate both the ultimate objectives accomplished
by the policy and the prerequisites it upholds throughout its execution. These
LTL-based explanations feature a structured representation, which is
particularly well-suited for local-search techniques. The effectiveness of our
proposed approach is illustrated through a simulated capture the flag
environment. The paper concludes with suggested directions for future research.
- Abstract(参考訳): 本稿では,ポリシーの説明を提供するために設計された<textit{Linear Temporal Logic} (LTL) 式について紹介する。
私たちの焦点は、ポリシーによって達成された究極の目的と、その実行中に維持される前提の両方を明らかにする説明を作ることです。
これらのLTLに基づく説明は構造化表現を特徴とし、特に局所探索技術に適している。
提案手法の有効性は,旗環境をシミュレートして示す。
この論文は今後の研究の方向性を示唆している。
関連論文リスト
- Towards a Framework for Evaluating Explanations in Automated Fact Verification [12.904145308839997]
NLPの深いニューラルモデルがより複雑になるにつれて、それらを解釈する必要性はさらに高くなる。
急激な関心は、予測の簡潔で一貫性のある正当化を提供するための合理的な説明に現れている。
我々は,それらの評価を体系的に支援するための説明の合理化について,重要な概念と特性に関する公式な枠組みを提唱する。
論文 参考訳(メタデータ) (2024-03-29T17:50:28Z) - Clash of the Explainers: Argumentation for Context-Appropriate
Explanations [6.8285745209093145]
特定のコンテキストに最も適したアプローチはひとつもありません。
AIの説明容易性を効果的にするためには、説明とそれらがどのように提示されるかは、説明を受けるステークホルダーに向けられる必要がある。
本稿では、関係する利害関係者の精神モデルと、多説明者による議論問題を解決する理性コンポーネントと、利害関係者に適切に説明すべきAIモデルとからなるモジュラー推論システムを提案する。
論文 参考訳(メタデータ) (2023-12-12T09:52:30Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Complementary Explanations for Effective In-Context Learning [77.83124315634386]
大規模言語モデル (LLM) は、説明のインプロンプトから学習する際、顕著な能力を示した。
この研究は、文脈内学習に説明が使用されるメカニズムをよりよく理解することを目的としている。
論文 参考訳(メタデータ) (2022-11-25T04:40:47Z) - Discrete Reasoning Templates for Natural Language Understanding [79.07883990966077]
我々は,複雑な質問をより単純な質問に分解する手法を提案する。
事前定義された推論テンプレートの指示に従って最終回答を導出する。
我々のアプローチは、解釈可能でありながら最先端技術と競合し、監督をほとんど必要としないことを示す。
論文 参考訳(メタデータ) (2021-04-05T18:56:56Z) - What Did You Think Would Happen? Explaining Agent Behaviour Through
Intended Outcomes [30.056732656973637]
本稿では,意図した結果の概念に基づく強化学習の新たな説明方法を提案する。
これらの説明は、エージェントがそのアクションによって達成しようとしている結果を記述している。
従来の強化学習では,この性質のポストホックな説明のための一般的な手法は不可能であることを示す。
論文 参考訳(メタデータ) (2020-11-10T12:05:08Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Sequential Explanations with Mental Model-Based Policies [20.64968620536829]
本研究では,説明者の精神モデルに基づく説明を提供するための強化学習フレームワークを適用した。
我々は、説明が選ばれ、参加者に提示される新しいオンライン人間実験を行う。
以上の結果から,精神モデルに基づく政策は,複数のシーケンシャルな説明よりも解釈可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-17T14:43:46Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。