Fugu-MT 論文翻訳(概要): On Generating Explanations for Reinforcement Learning Policies: An Empirical Study

論文の概要: On Generating Explanations for Reinforcement Learning Policies: An Empirical Study

arxiv url: http://arxiv.org/abs/2309.16960v2
Date: Wed, 6 Mar 2024 02:02:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 17:52:02.434795
Title: On Generating Explanations for Reinforcement Learning Policies: An Empirical Study
Title（参考訳）: 強化学習政策の説明の生成について--実証的研究
Authors: Mikihisa Yuasa, Huy T. Tran, Ramavarapu S. Sreenivas
Abstract要約: ポリシーの説明を提供するために,テキストリニア時相論理式(LTL)を導入する。私たちの焦点は、政策によって達成される最終的な目的と、実行を通じて維持される前提条件の両方を解明する説明を作ることにあります。
参考スコア（独自算出の注目度）: 2.631955426232593
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Understanding a \textit{reinforcement learning} policy, which guides state-to-action mappings to maximize rewards, necessitates an accompanying explanation for human comprehension. In this paper, we introduce a set of \textit{linear temporal logic} (LTL) formulae designed to provide explanations for policies, and an algorithm for searching through those formulae for the one that best explains a given policy. Our focus is on crafting explanations that elucidate both the ultimate objectives accomplished by the policy and the prerequisite conditions it upholds throughout its execution. These LTL-based explanations feature a structured representation, which is particularly well-suited for local-search techniques. The effectiveness of our proposed approach is illustrated through a simulated game of capture the flag and a car-parking environment. The paper concludes with suggested directions for future
Abstract（参考訳）: 報酬を最大化するために状態と行動のマッピングを導く \textit{reinforcement learning}ポリシーを理解するには、人間の理解に付随する説明が必要である。本稿では、ポリシーの説明を提供するために設計された一連の \textit{linear temporal logic} (ltl) 式と、与えられたポリシーを最もよく説明する論理式を探索するアルゴリズムを紹介する。我々の焦点は、政策によって達成された究極の目的と、その実行中に維持される前提条件の両方を解明する説明を作ることである。これらのLTLに基づく説明は構造化表現を特徴とし、特に局所探索技術に適している。提案手法の有効性は,フラグを捕捉するシミュレーションゲームと自動車駐車環境によって説明される。論文は将来の方向性で締めくくります

関連論文リスト

Explanatory Summarization with Discourse-Driven Planning [58.449423507036414]
本稿では、談話フレームワークを活用して要約生成を整理し、説明文を案内するプランベースアプローチを提案する。具体的には、2つの談話型計画戦略を提案し、そこでは、計画が出力プレフィックスの入力または部分の一部として条件付けられている。 3つのレイ・サマリゼーション・データセットに関する実証実験により,本手法は要約品質の観点から既存の最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-04-27T19:47:36Z)
Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文参考訳（メタデータ） (2025-01-20T08:40:15Z)
Learning Rules Explaining Interactive Theorem Proving Tactic Prediction [5.229806149125529]
この問題を帰納論理プログラミング(ILP)タスクとして表現する。 ILP表現を使用することで、追加で計算コストの高いプロパティをエンコードすることで、機能空間を豊かにしました。我々は、このリッチな特徴空間を用いて、与えられた証明状態に戦術がいつ適用されたかを説明する規則を学ぶ。
論文参考訳（メタデータ） (2024-11-02T09:18:33Z)
PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods [0.0]
本稿では,分散強化学習フレームワークとポリシ勾配アルゴリズムを組み合わせた新しいアルゴリズムPG-Rainbowを紹介する。政策ネットワークに報酬分配情報を統合することで、政策エージェントが強化された能力を取得するという経験的結果を示す。
論文参考訳（メタデータ） (2024-07-18T04:18:52Z)
End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations [15.530907808235945]
構造化状態と象徴的ポリシーを共同学習するための,ニューロシンボリックな枠組みを提案する。我々は、GPT-4に学習ポリシーと意思決定に関するテキスト説明を生成するパイプラインを設計する。我々は,9つのアタリ課題に対するアプローチの有効性を検証するとともに,政策と意思決定に関するGPTによる説明を行う。
論文参考訳（メタデータ） (2024-03-19T05:21:20Z)
Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文参考訳（メタデータ） (2023-05-31T14:59:12Z)
Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文参考訳（メタデータ） (2022-02-15T14:04:44Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)
Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2021-07-01T15:30:59Z)
Discrete Reasoning Templates for Natural Language Understanding [79.07883990966077]
我々は,複雑な質問をより単純な質問に分解する手法を提案する。事前定義された推論テンプレートの指示に従って最終回答を導出する。我々のアプローチは、解釈可能でありながら最先端技術と競合し、監督をほとんど必要としないことを示す。
論文参考訳（メタデータ） (2021-04-05T18:56:56Z)
What Did You Think Would Happen? Explaining Agent Behaviour Through Intended Outcomes [30.056732656973637]
本稿では,意図した結果の概念に基づく強化学習の新たな説明方法を提案する。これらの説明は、エージェントがそのアクションによって達成しようとしている結果を記述している。従来の強化学習では,この性質のポストホックな説明のための一般的な手法は不可能であることを示す。
論文参考訳（メタデータ） (2020-11-10T12:05:08Z)
Sequential Explanations with Mental Model-Based Policies [20.64968620536829]
本研究では,説明者の精神モデルに基づく説明を提供するための強化学習フレームワークを適用した。我々は、説明が選ばれ、参加者に提示される新しいオンライン人間実験を行う。以上の結果から,精神モデルに基づく政策は,複数のシーケンシャルな説明よりも解釈可能性を高める可能性が示唆された。
論文参考訳（メタデータ） (2020-07-17T14:43:46Z)
Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文参考訳（メタデータ） (2020-01-18T15:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。