論文の概要: ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model
- arxiv url: http://arxiv.org/abs/2603.22281v1
- Date: Mon, 23 Mar 2026 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.839442
- Title: ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model
- Title(参考訳): ThinkJEPA: 大規模ビジョンランゲージ推論モデルによる潜在世界モデルの実現
- Authors: Haichao Zhang, Yijiang Li, Shwai He, Tushar Nagarajan, Mingfei Chen, Jianglin Lu, Ang Li, Yun Fu,
- Abstract要約: 視覚言語モデル(VLM)は、一様にサンプリングされたフレームを解析することで、強力なセマンティックグラウンドと一般的な知識を提供する。
本稿では,高密度フレーム・ダイナミックス・モデリングと長軸意味指導を組み合わせたVLM誘導型JEPA型潜在世界モデリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 53.15040805435013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in latent world models (e.g., V-JEPA2) has shown promising capability in forecasting future world states from video observations. Nevertheless, dense prediction from a short observation window limits temporal context and can bias predictors toward local, low-level extrapolation, making it difficult to capture long-horizon semantics and reducing downstream utility. Vision--language models (VLMs), in contrast, provide strong semantic grounding and general knowledge by reasoning over uniformly sampled frames, but they are not ideal as standalone dense predictors due to compute-driven sparse sampling, a language-output bottleneck that compresses fine-grained interaction states into text-oriented representations, and a data-regime mismatch when adapting to small action-conditioned datasets. We propose a VLM-guided JEPA-style latent world modeling framework that combines dense-frame dynamics modeling with long-horizon semantic guidance via a dual-temporal pathway: a dense JEPA branch for fine-grained motion and interaction cues, and a uniformly sampled VLM \emph{thinker} branch with a larger temporal stride for knowledge-rich guidance. To transfer the VLM's progressive reasoning signals effectively, we introduce a hierarchical pyramid representation extraction module that aggregates multi-layer VLM representations into guidance features compatible with latent prediction. Experiments on hand-manipulation trajectory prediction show that our method outperforms both a strong VLM-only baseline and a JEPA-predictor baseline, and yields more robust long-horizon rollout behavior.
- Abstract(参考訳): 潜在世界モデル(例えばV-JEPA2)の最近の進歩は、ビデオ観測から将来の世界状態を予測できる有望な能力を示している。
それでも、短い観測窓からの密集した予測は時間的文脈を制限し、局所的、低レベルな外挿に向けて予測器を偏見し、長い水平なセマンティクスを捕捉し、下流のユーティリティを減少させるのが困難である。
対照的に視覚言語モデル(VLM)は、一様にサンプリングされたフレームを推論することで、強力なセマンティックグラウンドと一般的な知識を提供するが、計算駆動スパースサンプリングによるスタンドアロンの密集予測器としては理想的ではなく、微粒な相互作用状態をテキスト指向の表現に圧縮する言語出力ボトルネック、小さなアクション条件付きデータセットに適応する際のデータ-登録ミスマッチである。
本稿では、VLM誘導型JEPAスタイルの潜在世界モデリングフレームワークを提案する。このフレームワークは、高密度フレームの動的モデリングと2重時間経路による長期的意味指導を組み合わせたもので、細粒度の動きと相互作用の深いJEPAブランチと、知識豊富なガイダンスのための時間的ストライドを備えた一様サンプルのVLM \emph{thinker}ブランチである。
VLMのプログレッシブ推論信号を効果的に転送するために,多層VLM表現を集約した階層的ピラミッド表現抽出モジュールを導入し,遅延予測と互換性のあるガイダンス特徴を示す。
手動軌道予測実験により,本手法は強いVLM専用ベースラインとJEPA予測ベースラインの両方に優れ,より堅牢な長軸ロールアウト挙動が得られることが示された。
関連論文リスト
- Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models [5.085937845977223]
AutoTracesは、ヒューム言語環境におけるロボット軌道予測のための自動回帰視覚軌道モデルである。
鍵となる革新は軌跡トークン化スキームであり、これはポイントトークンを持つウェイポイントをカテゴリマーカーとして表現し、ウェイポイント数値を対応するポイント埋め込みとして符号化する。
論文 参考訳(メタデータ) (2026-03-09T05:53:06Z) - VFMF: World Modeling by Forecasting Vision Foundation Model Features [67.09340259579761]
本稿では,視覚基礎モデルの特徴空間における自己回帰フローマッチングを行う生成予測器を提案する。
この潜伏情報の方がPCAベースの代替案よりも効果的であることを示す。
一致したアーキテクチャと計算により、本手法はすべてのモダリティにおける回帰よりもシャープで正確な予測を生成する。
論文 参考訳(メタデータ) (2025-12-12T02:10:05Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - LLM-Integrated Bayesian State Space Models for Multimodal Time-Series Forecasting [20.735693014588236]
本稿では,マルチモーダル時間予測のための新しいフレームワークであるベイズ状態空間モデル(LBS)を紹介する。
1)状態空間モデル(SSM)バックボーンは、数値とテキストの両方の観測が生成される潜時状態の時間的ダイナミクスをキャプチャする。
TextTimeCorpusベンチマークの実験では、LBSは過去の最先端を13.20%改善し、予測の可読な要約を提供している。
論文 参考訳(メタデータ) (2025-10-23T19:28:26Z) - Vision-LLMs for Spatiotemporal Traffic Forecasting [14.700408329373998]
大規模言語モデル(LLM)は、グリッドベースのトラフィックデータの複雑な空間的依存関係をモデル化するのに本質的に苦労する。
本稿では,視覚言語融合問題として時間的予測を行う新しいフレームワークであるST-Vision-LLMを提案する。
また,ST-Vision-LLMでは,長期予測精度が15.6%向上し,クロスドメインシナリオでは30.04%以上向上した。
論文 参考訳(メタデータ) (2025-10-13T11:15:56Z) - SG-LDM: Semantic-Guided LiDAR Generation via Latent-Aligned Diffusion [0.11184789007828977]
Lidarポイントクラウド合成は、ディープラーニングパイプラインを拡大するための有望なソリューションを提供する。
既存の方法は、非条件のライダーポイントクラウド生成に焦点を合わせ、現実世界のアプリケーションの可能性を見越している。
本研究では,セマンティック誘導ライダー拡散モデルであるSG-LDMを提案する。
論文 参考訳(メタデータ) (2025-06-30T08:13:04Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory
Prediction [28.438787700968703]
条件付きMUSEは、現在の最先端技術と比較して、多様かつ同時に正確な予測を提供する。
我々は、新しい合成データセットであるPFSDと同様に、nuScenesとSDDベンチマークに関する包括的な実験を通してこれらのアサーションを実証する。
論文 参考訳(メタデータ) (2022-01-18T18:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。