Fugu-MT 論文翻訳(概要): Explainable Reinforcement Learning via a Causal World Model

論文の概要: Explainable Reinforcement Learning via a Causal World Model

arxiv url: http://arxiv.org/abs/2305.02749v2
Date: Mon, 15 May 2023 09:05:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 20:44:34.052059
Title: Explainable Reinforcement Learning via a Causal World Model
Title（参考訳）: 因果世界モデルによる説明可能な強化学習
Authors: Zhongwei Yu, Jingqing Ruan, Dengpeng Xing
Abstract要約: 我々は,環境の因果構造を事前に知ることなく,因果世界モデルを学ぶ。このモデルは行動の影響を捉え、因果連鎖を通して行動の長期的影響を解釈する。我々のモデルは、説明可能性を改善しながら正確であり、モデルベースの学習に適用できる。
参考スコア（独自算出の注目度）: 1.3428344011390778
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating explanations for reinforcement learning (RL) is challenging as actions may produce long-term effects on the future. In this paper, we develop a novel framework for explainable RL by learning a causal world model without prior knowledge of the causal structure of the environment. The model captures the influence of actions, allowing us to interpret the long-term effects of actions through causal chains, which present how actions influence environmental variables and finally lead to rewards. Different from most explanatory models which suffer from low accuracy, our model remains accurate while improving explainability, making it applicable in model-based learning. As a result, we demonstrate that our causal model can serve as the bridge between explainability and learning.
Abstract（参考訳）: 強化学習(RL)のための説明を生成することは、行動が未来に長期的な影響をもたらす可能性があるため困難である。本稿では,環境の因果構造を事前に知ることなく,因果世界モデルを学習し,説明可能なRLのための新しい枠組みを開発する。このモデルは行動の影響を捉え、因果連鎖による行動の長期的な影響を解釈し、行動が環境変数にどのように影響し、最終的に報酬につながるかを示す。精度の低いほとんどの説明モデルとは異なり、説明可能性を改善しながら精度を保ち、モデルベース学習に適用できる。その結果,我々の因果モデルが説明可能性と学習の橋渡しとなることを示した。

関連論文リスト

Learning Nonlinear Causal Reductions to Explain Reinforcement Learning Policies [50.30741668990102]
我々は、強化学習政策の行動を説明するための因果的視点を採っている。我々はこれらの関係を説明する単純化された高レベルの因果関係モデルを学ぶ。非線形因果モデルのクラスに対して、一意の解が存在することを証明する。
論文参考訳（メタデータ） (2025-07-20T10:25:24Z)
The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文参考訳（メタデータ） (2025-06-20T10:12:38Z)
Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting [25.351469582315975]
大規模言語モデル(LLM)は、モデル内に蓄積される膨大な知識のため、意思決定において大きな可能性を示している。構造因果モデル(SCM)を意思決定プロセスに統合し,環境の構造的知識をモデル化し,更新し,活用する因果認識型LCMを提案する。
論文参考訳（メタデータ） (2025-05-30T15:30:44Z)
Causal Distillation: Transferring Structured Explanations from Large to Compact Language Models [0.0]
大規模なプロプライエタリな言語モデルは、小さなオープンソースモデルでは複製が困難である強力な因果推論能力を示している。本稿では,強力な教師モデルからコンパクトなオープンソースモデルへ因果推論スキルを伝達する因果説明を蒸留する新しい枠組みを提案する。鍵となる考え方は、教師モデルと整合した構造的原因・効果説明を生成することにより、因果推論能力を向上させるために、より小さなモデルを訓練することである。
論文参考訳（メタデータ） (2025-05-26T04:50:42Z)
Towards Empowerment Gain through Causal Structure Learning in Model-Based RL [35.933469787075]
本稿では,学習効率と制御性を向上させるための新しいフレームワークであるEmpowerment through Causal Learning (ECL)を提案する。 ECLは、まず、収集されたデータに基づいて環境の因果ダイナミクスモデルを訓練する。そして、探索によって収集されたデータを同時に利用して、因果ダイナミクスモデルをより制御しやすいように更新する。
論文参考訳（メタデータ） (2025-02-14T10:59:09Z)
Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文参考訳（メタデータ） (2024-10-31T12:48:58Z)
DAG-aware Transformer for Causal Effect Estimation [0.8192907805418583]
因果推論は、医療、経済学、社会科学などの分野における重要な課題である。本稿では,これらの課題を克服する因果推論のためのトランスフォーマーを用いた新しい手法を提案する。我々のモデルの中核となる革新は、注意機構に直接因果非巡回グラフ(DAG)を統合することである。
論文参考訳（メタデータ） (2024-10-13T23:17:58Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
Causal Graph Neural Networks for Wildfire Danger Prediction [25.12733727343395]
森林火災の予報は、気象条件、植生の種類、人的活動など様々な要因の複雑な相互作用のため、非常に難しいことが知られている。ディープラーニングモデルは、データから直接学習することで、この複雑さを扱うことを約束している。私たちは正しい理由のために正しいモデルが必要だと主張する。つまり、学んだ暗黙のルールは、山火事を駆動する基盤となるプロセスによって基礎づけられるべきである。
論文参考訳（メタデータ） (2024-03-13T10:58:55Z)
Identifiable Latent Polynomial Causal Models Through the Lens of Change [82.14087963690561]
因果表現学習は、観測された低レベルデータから潜在的な高レベル因果表現を明らかにすることを目的としている。主な課題の1つは、識別可能性(identifiability)として知られるこれらの潜伏因果モデルを特定する信頼性の高い保証を提供することである。
論文参考訳（メタデータ） (2023-10-24T07:46:10Z)
Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2023-09-30T20:59:42Z)
Minimal Value-Equivalent Partial Models for Scalable and Robust Planning in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文参考訳（メタデータ） (2023-01-24T16:40:01Z)
Towards Interpretable Deep Reinforcement Learning Models via Inverse Reinforcement Learning [27.841725567976315]
本稿では,逆逆強化学習を利用した新しいフレームワークを提案する。このフレームワークは、強化学習モデルによる決定のグローバルな説明を提供する。モデルの意思決定過程を要約することで、モデルが従う直感的な傾向を捉える。
論文参考訳（メタデータ） (2022-03-30T17:01:59Z)
Causality in Neural Networks -- An Extended Abstract [0.0]
因果推論は、人間が使用する主要な学習および説明ツールである。因果性の概念を機械学習に導入することは、より良い学習と説明可能なモデルを提供するのに役立つ。
論文参考訳（メタデータ） (2021-06-03T09:52:36Z)
Remembering for the Right Reasons: Explanations Reduce Catastrophic Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。 RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文参考訳（メタデータ） (2020-10-04T10:05:27Z)
Towards Interpretable Reasoning over Paragraph Effects in Situation [126.65672196760345]
我々は,原因と効果を理解するためのモデルを必要とする状況において,段落効果を推論する作業に焦点をあてる。本稿では,ニューラルネットワークモジュールを用いた推論プロセスの各ステップを明示的にモデル化する逐次的手法を提案する。特に、5つの推論モジュールはエンドツーエンドで設計され、学習され、より解釈可能なモデルにつながる。
論文参考訳（メタデータ） (2020-10-03T04:03:52Z)
Distal Explanations for Model-free Explainable Reinforcement Learning [19.250329276538352]
モデルレス強化学習エージェントの遠位説明モデルを導入・評価する。我々の出発点は、因果モデルがA 可算 B と B が C' を引き起こす確率連鎖を生成できるという観察である。
論文参考訳（メタデータ） (2020-01-28T11:57:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。