論文の概要: Object-Centric World Models for Causality-Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.14262v1
- Date: Tue, 18 Nov 2025 08:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.019454
- Title: Object-Centric World Models for Causality-Aware Reinforcement Learning
- Title(参考訳): 因果関係を考慮した強化学習のためのオブジェクト中心世界モデル
- Authors: Yosuke Nishimoto, Takashi Matsubara,
- Abstract要約: カルーサリティ対応強化学習(ASTICA)を用いたEmph Transformer Imaginationを提案する。
オブジェクト中心のトランスフォーマーが世界モデルおよび因果対応ポリシーおよびバリューネットワークとして機能する統合フレームワーク。
オブジェクトリッチベンチマークの実験では、STICAはサンプル効率と最終性能の両方において、最先端のエージェントよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 13.063093054280946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have been developed to support sample-efficient deep reinforcement learning agents. However, it remains challenging for world models to accurately replicate environments that are high-dimensional, non-stationary, and composed of multiple objects with rich interactions since most world models learn holistic representations of all environmental components. By contrast, humans perceive the environment by decomposing it into discrete objects, facilitating efficient decision-making. Motivated by this insight, we propose \emph{Slot Transformer Imagination with CAusality-aware reinforcement learning} (STICA), a unified framework in which object-centric Transformers serve as the world model and causality-aware policy and value networks. STICA represents each observation as a set of object-centric tokens, together with tokens for the agent action and the resulting reward, enabling the world model to predict token-level dynamics and interactions. The policy and value networks then estimate token-level cause--effect relations and use them in the attention layers, yielding causality-guided decision-making. Experiments on object-rich benchmarks demonstrate that STICA consistently outperforms state-of-the-art agents in both sample efficiency and final performance.
- Abstract(参考訳): サンプル効率の高い深層強化学習エージェントをサポートするために世界モデルが開発されている。
しかし、ほとんどの世界モデルは全ての環境成分の全体的表現を学習するため、高次元で非定常でリッチな相互作用を持つ複数のオブジェクトからなる環境を正確に再現することは、世界モデルにとって依然として困難である。
対照的に、人間はそれを離散オブジェクトに分解することで環境を知覚し、効率的な意思決定を容易にする。
この知見に触発されて,対象中心のトランスフォーマーが世界モデルとして機能し,因果対応のポリシやバリューネットワークとして機能する統一的なフレームワークである,CAusality-Aware reinforcement Learning} (STICA) を用いた 'emph{Slot Transformer Imagination' を提案する。
STICAは、それぞれの観察を、エージェントアクションと結果の報酬のトークンとともに、オブジェクト中心のトークンのセットとして表現する。
ポリシーとバリューネットワークはトークンレベルの因果関係を推定し、注意層でそれらを使用し、因果性に基づく意思決定をもたらす。
オブジェクトリッチベンチマークの実験では、STICAはサンプル効率と最終性能の両方において、最先端のエージェントよりも一貫して優れていた。
関連論文リスト
- When Object-Centric World Models Meet Policy Learning: From Pixels to Policies, and Where It Breaks [24.669692812050645]
我々は、ピクセルから直接オブジェクトレベルのラテントを学習する、完全に教師なし、不整合なオブジェクト中心の世界モデルを導入する。
DLPWMは、複数のアウト・オブ・ディストリビューション(OOD)視覚変化に対する堅牢性を含む、強い再構成と予測性能を達成する。
その結果,物体中心の知覚は頑健な視覚モデルを支援するが,安定した制御を実現するには潜伏ドリフトを緩和する必要があることが示唆された。
論文 参考訳(メタデータ) (2025-11-08T21:09:44Z) - Learning Interactive World Model for Object-Centric Reinforcement Learning [27.710001478315288]
我々は、世界モデル内で、オブジェクトとそれらの相互作用の構造化表現を学習する統一的なフレームワークを導入する。
FIOC-WMは、オブジェクト相互作用のアンタングルおよびモジュラー表現で環境力学をキャプチャする。
FIOC-WMは、シミュレーションされたロボットと組み込みAIベンチマークにおいて、世界モデルベースラインに対するポリシー学習サンプル効率と一般化を改善している。
論文 参考訳(メタデータ) (2025-11-04T03:35:58Z) - Dyn-O: Building Structured World Models with Object-Centric Representations [42.65409148846005]
オブジェクト中心の表現に基づいて構築された拡張構造化世界モデルであるDyn-Oを紹介する。
オブジェクト中心表現における以前の研究と比較すると、Dyn-Oは学習表現とモデリングダイナミクスの両方において改善されている。
提案手法は,画素観測からオブジェクト中心の世界モデルを直接学習し,DreamerV3のロールアウト予測精度を向上する。
論文 参考訳(メタデータ) (2025-07-04T05:06:15Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - SPARTAN: A Sparse Transformer Learning Local Causation [63.29645501232935]
因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。
本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。
オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
論文 参考訳(メタデータ) (2024-11-11T11:42:48Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。
本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。
シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。