論文の概要: Better Decisions through the Right Causal World Model
- arxiv url: http://arxiv.org/abs/2504.07257v1
- Date: Wed, 09 Apr 2025 20:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:44.634818
- Title: Better Decisions through the Right Causal World Model
- Title(参考訳): 正しい因果世界モデルによるより良い意思決定
- Authors: Elisabeth Dillies, Quentin Delfosse, Jannis Blüml, Raban Emunds, Florian Peter Busch, Kristian Kersting,
- Abstract要約: 因果的対象中心モデル抽出ツール(COMET)は、正確に解釈可能な因果的世界モデル(CWM)を学習するために設計された新しいアルゴリズムである。
Pong や Freeway などの Atari 環境で検証した結果,COMET の精度とロバスト性を実証した。
- 参考スコア(独自算出の注目度): 17.623937562865617
- License:
- Abstract: Reinforcement learning (RL) agents have shown remarkable performances in various environments, where they can discover effective policies directly from sensory inputs. However, these agents often exploit spurious correlations in the training data, resulting in brittle behaviours that fail to generalize to new or slightly modified environments. To address this, we introduce the Causal Object-centric Model Extraction Tool (COMET), a novel algorithm designed to learn the exact interpretable causal world models (CWMs). COMET first extracts object-centric state descriptions from observations and identifies the environment's internal states related to the depicted objects' properties. Using symbolic regression, it models object-centric transitions and derives causal relationships governing object dynamics. COMET further incorporates large language models (LLMs) for semantic inference, annotating causal variables to enhance interpretability. By leveraging these capabilities, COMET constructs CWMs that align with the true causal structure of the environment, enabling agents to focus on task-relevant features. The extracted CWMs mitigate the danger of shortcuts, permitting the development of RL systems capable of better planning and decision-making across dynamic scenarios. Our results, validated in Atari environments such as Pong and Freeway, demonstrate the accuracy and robustness of COMET, highlighting its potential to bridge the gap between object-centric reasoning and causal inference in reinforcement learning.
- Abstract(参考訳): 強化学習(RL)エージェントは様々な環境において顕著な性能を示しており、感覚入力から直接効果的なポリシーを発見できる。
しかし、これらのエージェントはトレーニングデータの急激な相関を利用しており、結果として不安定な振る舞いが生じ、新しい環境やわずかに修正された環境に一般化できない。
そこで本研究では,正確な因果世界モデル(CWM)を学習するための新しいアルゴリズムである,因果対象中心モデル抽出ツール(COMET)を紹介する。
COMETはまず、観測からオブジェクト中心の状態記述を抽出し、対象物の性質に関連する環境の内部状態を特定する。
シンボリック回帰を用いて、オブジェクト中心の遷移をモデル化し、オブジェクトのダイナミクスを管理する因果関係を導出する。
COMETはさらに、意味推論のための大きな言語モデル(LLM)を組み込んでおり、解釈可能性を高めるために因果変数を注釈付けしている。
これらの機能を活用することで、COMETは環境の真の因果構造に合わせてCWMを構築し、エージェントがタスク関連機能に集中できるようにする。
抽出されたCWMはショートカットの危険性を軽減し、動的シナリオをまたいだ計画と意思決定をより良くするRLシステムの開発を可能にした。
Pong や Freeway などのアタリ環境で検証した結果,COMET の精度とロバスト性を実証し,強化学習における対象中心推論と因果推論のギャップを埋める可能性を強調した。
関連論文リスト
- Towards Empowerment Gain through Causal Structure Learning in Model-Based RL [35.933469787075]
本稿では,学習効率と制御性を向上させるための新しいフレームワークであるEmpowerment through Causal Learning (ECL)を提案する。
ECLは、まず、収集されたデータに基づいて環境の因果ダイナミクスモデルを訓練する。
そして、探索によって収集されたデータを同時に利用して、因果ダイナミクスモデルをより制御しやすいように更新する。
論文 参考訳(メタデータ) (2025-02-14T10:59:09Z) - ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments [0.13654846342364302]
本稿では,大規模モデルの常識的知識と推論能力を活用するViRACを提案する。
ViRACは最近の最先端技術よりも自然でコンテキスト対応の頭部回転を生成する。
論文 参考訳(メタデータ) (2025-02-14T09:46:43Z) - SPARTAN: A Sparse Transformer Learning Local Causation [63.29645501232935]
因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。
本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。
オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
論文 参考訳(メタデータ) (2024-11-11T11:42:48Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Causal Flow-based Variational Auto-Encoder for Disentangled Causal Representation Learning [1.4875602190483512]
遠方表現学習は、各次元が基礎となる生成因子に対応する表現を学習することを目的としている。
因果フローを表現学習プロセスに統合する新しい教師付きVAEフレームワークであるDisentangled Causal Variational Auto-Encoder (DCVAE)を提案する。
我々は,合成データセットと実世界のデータセットの両方でDCVAEを評価し,因果解離と介入実験における優れた能力を示した。
論文 参考訳(メタデータ) (2023-04-18T14:26:02Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Action-Sufficient State Representation Learning for Control with
Structural Constraints [21.47086290736692]
本稿では,部分的に観測可能な環境に焦点をあて,意思決定に十分な情報を収集する,最小限の状態表現の集合を学習することを提案する。
システム内の変数間の構造的関係のための生成環境モデルを構築し、ASRを特徴付けるための原則的な方法を提案する。
CarRacing と VizDoom の実証実験の結果は,ASR を政策学習に活用する上で,明らかな優位性を示している。
論文 参考訳(メタデータ) (2021-10-12T03:16:26Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。