論文の概要: Textual Explanations and Their Evaluations for Reinforcement Learning Policy
- arxiv url: http://arxiv.org/abs/2601.02514v1
- Date: Mon, 05 Jan 2026 19:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.705206
- Title: Textual Explanations and Their Evaluations for Reinforcement Learning Policy
- Title(参考訳): 強化学習政策のためのテキスト説明とその評価
- Authors: Ahmad Terra, Mohit Ahmed, Rafia Inam, Elena Fersman, Martin Törngren,
- Abstract要約: 説明可能な強化学習(XRL)政策は、自律的なエージェントが人間の期待に応じて振舞うことを保証するために不可欠である。
本稿では,テキスト記述の生成,透過的なルールのセットへの変換,品質の向上,評価を行う新しいフレームワークを提案する。
このフレームワークは、既存の手法である自律的政策説明の限界に対処し、生成された透明なルールは、特定のタスクにおいて満足なパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 1.1972808233380563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding a Reinforcement Learning (RL) policy is crucial for ensuring that autonomous agents behave according to human expectations. This goal can be achieved using Explainable Reinforcement Learning (XRL) techniques. Although textual explanations are easily understood by humans, ensuring their correctness remains a challenge, and evaluations in state-of-the-art remain limited. We present a novel XRL framework for generating textual explanations, converting them into a set of transparent rules, improving their quality, and evaluating them. Expert's knowledge can be incorporated into this framework, and an automatic predicate generator is also proposed to determine the semantic information of a state. Textual explanations are generated using a Large Language Model (LLM) and a clustering technique to identify frequent conditions. These conditions are then converted into rules to evaluate their properties, fidelity, and performance in the deployed environment. Two refinement techniques are proposed to improve the quality of explanations and reduce conflicting information. Experiments were conducted in three open-source environments to enable reproducibility, and in a telecom use case to evaluate the industrial applicability of the proposed XRL framework. This framework addresses the limitations of an existing method, Autonomous Policy Explanation, and the generated transparent rules can achieve satisfactory performance on certain tasks. This framework also enables a systematic and quantitative evaluation of textual explanations, providing valuable insights for the XRL field.
- Abstract(参考訳): 強化学習(RL)政策を理解することは、自律的なエージェントが人間の期待に応じて振る舞うことを保証するために不可欠である。
この目標は、説明可能な強化学習(XRL)技術を用いて達成できる。
文章による説明は人間によって容易に理解されるが、その正確性を保証することは依然として困難であり、現状における評価は限定的である。
本稿では,テキスト記述の生成,透過的なルールのセットへの変換,品質の向上,評価を行うための新しいXRLフレームワークを提案する。
このフレームワークにはエキスパートの知識が組み込まれており、状態の意味情報を決定するために自動述語生成器も提案されている。
テキストの説明はLarge Language Model (LLM) とクラスタリング技術を用いて生成され、頻繁な条件を識別する。
これらの条件は、デプロイされた環境におけるそれらの特性、忠実性、パフォーマンスを評価するためにルールに変換される。
説明の質を向上し、矛盾する情報を減らすために、2つの改良手法が提案されている。
再現性を実現するために3つのオープンソース環境で実験を行い, 提案したXRLフレームワークの産業応用性を評価するために, テレコムのユースケースで実験を行った。
このフレームワークは、既存の手法である自律的政策説明の限界に対処し、生成された透明なルールは、特定のタスクにおいて満足なパフォーマンスを達成することができる。
このフレームワークはまた、テキスト説明の体系的かつ定量的な評価を可能にし、XRL分野の貴重な洞察を提供する。
関連論文リスト
- EtCon: Edit-then-Consolidate for Reliable Knowledge Editing [85.20993502078899]
本稿では,理論的知識編集手法と実世界の応用性とのギャップを埋めることを目的とした知識編集パラダイムであるEdit-then-Consolidateを提案する。
本フレームワークは,実環境評価における編集信頼性と一般化を継続的に改善するとともに,局所性と事前学習能力の保存を向上する。
論文 参考訳(メタデータ) (2025-12-04T12:43:50Z) - SMA: Who Said That? Auditing Membership Leakage in Semi-Black-box RAG Controlling [50.66950115630554]
Retrieval-Augmented Generation(RAG)とそのMultimodal Retrieval-Augmented Generation(MRAG)は、大規模言語モデル(LLM)の知識カバレッジと文脈理解を著しく向上させる。
しかし、検索とマルチモーダル融合によるコンテンツの曖昧さは、既存のメンバーシップ推論手法を事前学習、外部検索、ユーザ入力に確実に属性付けできないようにし、プライバシー漏洩の説明責任を損なう。
本稿では,検索制御機能を備えた半ブラックボックス設定において,生成したコンテンツの微粒なソース属性を実現するための,SMA (Source-aware Membership Audit) を提案する。
論文 参考訳(メタデータ) (2025-08-12T17:32:24Z) - From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation [2.08099858257632]
本稿では,複雑な深いRLポリシーを透過的な表現に変換するためのモデルに依存しない新しいアプローチを提案する。
提案手法を既存の3つの深部RLアルゴリズムを用いて評価し,その性能を2つの古典的制御環境で検証した。
論文 参考訳(メタデータ) (2025-01-16T22:11:03Z) - SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts [0.6291443816903801]
本稿では,大規模言語モデル(LLM)のロバスト性を自律的に評価する新しいフレームワークを提案する。
本稿では,ドメイン制約付き知識グラフ三重項から記述文を生成し,敵対的プロンプトを定式化する。
この自己評価機構により、LCMは外部ベンチマークを必要とせずにその堅牢性を評価することができる。
論文 参考訳(メタデータ) (2024-12-01T10:58:53Z) - SCENE: Evaluating Explainable AI Techniques Using Soft Counterfactuals [0.0]
本稿では,新たな評価手法であるSCENE(Soft Counterfactual Evaluation for Natural Language Explainability)を紹介する。
トークンベースの置換に焦点を当てることで、SCENEは文脈的に適切で意味論的に意味のあるソフトカウンタブルを作成する。
SCENEは様々なXAI技法の強みと限界についての貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-08-08T16:36:24Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Introducing User Feedback-based Counterfactual Explanations (UFCE) [49.1574468325115]
対実的説明(CE)は、XAIで理解可能な説明を生成するための有効な解決策として浮上している。
UFCEは、アクション可能な機能のサブセットで最小限の変更を決定するために、ユーザー制約を含めることができる。
UFCEは、textitproximity(英語版)、textitsparsity(英語版)、textitfeasibility(英語版)の2つのよく知られたCEメソッドより優れている。
論文 参考訳(メタデータ) (2024-02-26T20:09:44Z) - Accountability in Offline Reinforcement Learning: Explaining Decisions
with a Corpus of Examples [70.84093873437425]
本稿では、オフラインデータセットを決定コーパスとして利用するAOC(Accountable Offline Controller)を紹介する。
AOCはローデータシナリオで効果的に動作し、厳密なオフラインの模倣設定まで拡張でき、保存性と適応性の両方の品質を示す。
シミュレーションおよび実世界の医療シナリオにおいて、AOCのパフォーマンスを評価し、説明責任を維持しながら高いレベルのパフォーマンスでオフライン制御タスクを管理する能力を強調した。
論文 参考訳(メタデータ) (2023-10-11T17:20:32Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。