論文の概要: Causal-JEPA: Learning World Models through Object-Level Latent Interventions
- arxiv url: http://arxiv.org/abs/2602.11389v1
- Date: Wed, 11 Feb 2026 21:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.549675
- Title: Causal-JEPA: Learning World Models through Object-Level Latent Interventions
- Title(参考訳): Causal-JEPA: オブジェクトレベル遅延干渉による世界モデル学習
- Authors: Heejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero,
- Abstract要約: C-JEPAは単純で柔軟なオブジェクト中心の世界モデルであり、イメージパッチからオブジェクト中心の表現まで、マスク付きジョイント埋め込み予測を拡張する。
物体の状態が他の物体から推測される必要があるオブジェクトレベルのマスキングを適用することで、C-JEPAは反事実的効果を伴う潜伏介入を誘導する。
- 参考スコア(独自算出の注目度): 46.562961546550895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models require robust relational understanding to support prediction, reasoning, and control. While object-centric representations provide a useful abstraction, they are not sufficient to capture interaction-dependent dynamics. We therefore propose C-JEPA, a simple and flexible object-centric world model that extends masked joint embedding prediction from image patches to object-centric representations. By applying object-level masking that requires an object's state to be inferred from other objects, C-JEPA induces latent interventions with counterfactual-like effects and prevents shortcut solutions, making interaction reasoning essential. Empirically, C-JEPA leads to consistent gains in visual question answering, with an absolute improvement of about 20\% in counterfactual reasoning compared to the same architecture without object-level masking. On agent control tasks, C-JEPA enables substantially more efficient planning by using only 1\% of the total latent input features required by patch-based world models, while achieving comparable performance. Finally, we provide a formal analysis demonstrating that object-level masking induces a causal inductive bias via latent interventions. Our code is available at https://github.com/galilai-group/cjepa.
- Abstract(参考訳): 世界モデルは、予測、推論、制御をサポートするために堅牢なリレーショナル理解を必要とする。
オブジェクト中心の表現は有用な抽象化を提供するが、相互作用依存のダイナミクスを捉えるのに十分ではない。
そこで我々は,C-JEPAを提案する。C-JEPAは,画像パッチからオブジェクト中心表現まで,マスク付き結合埋め込み予測を拡張した,シンプルでフレキシブルなオブジェクト中心世界モデルである。
オブジェクトの状態が他のオブジェクトから推論される必要があるオブジェクトレベルのマスキングを適用することで、C-JEPAは反ファクト的な効果によって潜時的な介入を誘導し、ショートカットソリューションを防止し、相互作用の推論が不可欠である。
実証的には、C-JEPAは、オブジェクトレベルのマスキングのない同じアーキテクチャと比較して、対実的推論の絶対的な改善で、視覚的質問応答において一貫した利得をもたらす。
エージェント制御タスクにおいて、C-JEPAはパッチベースのワールドモデルで要求される潜在入力機能の16%しか使用せず、同等のパフォーマンスを実現することで、より効率的なプランニングを可能にする。
最後に,物体レベルのマスキングが潜時介入による因果性誘導バイアスを誘導することを示す公式な解析を行った。
私たちのコードはhttps://github.com/galilai-group/cjepa.comで公開されています。
関連論文リスト
- VJEPA: Variational Joint Embedding Predictive Architectures as Probabilistic World Models [0.0]
EmphVariational JEPA (VJEPA) はテキスト確率論的な一般化であり、変動目的を通して将来の潜伏状態の予測分布を学習する。
VJEPA表現は、画素再構成なしで最適な制御のための十分な情報状態として機能し、崩壊回避の正式な保証を提供する。
我々は、予測的信念を学習力学の専門家とモジュラー事前専門家に分解する拡張であるEmphBayesian JEPA (BJEPA)を提案する。
論文 参考訳(メタデータ) (2026-01-20T18:04:16Z) - Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation [14.262846967061947]
微粒化対応ポース推定(FiCoP)は、ノイズの発するグローバルマッチングから空間的に制約されたパッチレベル対応へ移行するフレームワークである。
FiCoPは、最先端の手法と比較して平均リコールを8.0%と6.1%改善する。
論文 参考訳(メタデータ) (2026-01-20T03:48:54Z) - Object-Centric World Models for Causality-Aware Reinforcement Learning [13.063093054280946]
カルーサリティ対応強化学習(ASTICA)を用いたEmph Transformer Imaginationを提案する。
オブジェクト中心のトランスフォーマーが世界モデルおよび因果対応ポリシーおよびバリューネットワークとして機能する統合フレームワーク。
オブジェクトリッチベンチマークの実験では、STICAはサンプル効率と最終性能の両方において、最先端のエージェントよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-11-18T08:53:09Z) - When Object-Centric World Models Meet Policy Learning: From Pixels to Policies, and Where It Breaks [24.669692812050645]
我々は、ピクセルから直接オブジェクトレベルのラテントを学習する、完全に教師なし、不整合なオブジェクト中心の世界モデルを導入する。
DLPWMは、複数のアウト・オブ・ディストリビューション(OOD)視覚変化に対する堅牢性を含む、強い再構成と予測性能を達成する。
その結果,物体中心の知覚は頑健な視覚モデルを支援するが,安定した制御を実現するには潜伏ドリフトを緩和する必要があることが示唆された。
論文 参考訳(メタデータ) (2025-11-08T21:09:44Z) - ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。
我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。
公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文 参考訳(メタデータ) (2024-12-22T03:25:43Z) - Object-centric proto-symbolic behavioural reasoning from pixels [0.0]
我々は、ピクセルから学習し、その環境を解釈し、制御し、推論する脳に触発されたディープラーニングアーキテクチャを提案する。
その結果,エージェントは創発的条件付き行動推論を学習できることがわかった。
提案アーキテクチャは、教師なし学習における重要な帰納バイアスとして、接地オブジェクト表現の操作方法を示す。
論文 参考訳(メタデータ) (2024-11-26T13:54:24Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。