論文の概要: 4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding
- arxiv url: http://arxiv.org/abs/2605.05997v1
- Date: Thu, 07 May 2026 10:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.707068
- Title: 4DThinker: Thinking with 4D Imagery for Dynamic Spatial Understanding
- Title(参考訳): 4DThinker:動的空間理解のための4Dイメージによる思考
- Authors: Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xiang An, Bo Li, Xin Xie, ZiDong Wang, Mingze Sun, Shuang Chen, Hongyu Li, Xiaobin Hu, Ruqi Huang,
- Abstract要約: 視覚言語モデルを“4Dで考える”ための最初のフレームワークである4DThinkerを紹介します。
まず,生のビデオから4D推論データを合成する,スケーラブルでアノテーションのないデータ生成パイプラインを紹介する。
次に,動的視覚意味論のモデルを構築するために,テキストトークンと4Dラテントを併用した動的画像ファインタニング(DIFT)を提案する。
- 参考スコア(独自算出の注目度): 31.082079260882896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic spatial reasoning from monocular video is essential for bridging visual intelligence and the physical world, yet remains challenging for vision-language models (VLMs). Prior approaches either verbalize spatial-temporal reasoning entirely as text, which is inherently verbose and imprecise for complex dynamics, or rely on external geometric modules that increase inference complexity without fostering intrinsic model capability. In this paper, we present 4DThinker, the first framework that enables VLMs to "think with 4D" through dynamic latent mental imagery, i.e., internally simulating how scenes evolve within the continuous hidden space. Specifically, we first introduce a scalable, annotation-free data generation pipeline that synthesizes 4D reasoning data from raw videos. We then propose Dynamic-Imagery Fine-Tuning (DIFT), which jointly supervises textual tokens and 4D latents to ground the model in dynamic visual semantics. Building on this, 4D Reinforcement Learning (4DRL) further tackles complex reasoning tasks via outcome-based rewards, restricting policy gradients to text tokens to ensure stable optimization. Extensive experiments across multiple dynamic spatial reasoning benchmarks demonstrate that 4DThinker consistently outperforms strong baselines and offers a new perspective toward 4D reasoning in VLMs. Our code is available at https://github.com/zhangquanchen/4DThinker.
- Abstract(参考訳): モノクロ映像からの動的空間推論は視覚情報と物理世界をブリッジするのに不可欠であるが、視覚言語モデル(VLM)では依然として困難である。
従来のアプローチでは、空間的推論は完全にテキストとして言語化されており、これは本質的には複雑な力学に対して冗長で不正確であり、または、本質的なモデル能力を促進することなく推論複雑性を増大させる外部幾何学モジュールに依存している。
本稿では、4DThinkerを紹介し、VLMが動的に潜伏する心的イメージを通して「4Dで考える」ことを可能にする最初のフレームワークである。
具体的には、まず、生のビデオから4D推論データを合成するスケーラブルでアノテーションのないデータ生成パイプラインを導入する。
次に,テキストトークンと4Dラテントを共同で監督し,動的視覚意味論のモデルを構築する動的画像ファインタニング(DIFT)を提案する。
これに基づいて、4D強化学習(4D Reinforcement Learning, 4DRL)は、結果ベースの報酬を通じて複雑な推論タスクにさらに取り組み、安定した最適化を保証するために、テキストトークンに対するポリシー勾配を制限する。
複数の動的空間的推論ベンチマークの広範な実験は、4DThinkerが強いベースラインを一貫して上回り、VLMにおける4D推論に対する新たな視点を提供することを示した。
私たちのコードはhttps://github.com/zhangquanchen/4DThinker.comから入手可能です。
関連論文リスト
- PanopticQuery: Unified Query-Time Reasoning for 4D Scenes [53.672906752290665]
4Dシーンでクエリ時間推論を統一するフレームワークであるPanopticQueryを紹介した。
提案手法は高忠実度動的再構成のための4次元ガウススプラッティングに基づいている。
動的シーンにおける言語ベースのクエリのための新しいベンチマークであるPanoptic-L4Dを提案する。
論文 参考訳(メタデータ) (2026-04-07T09:40:05Z) - 4C4D: 4 Camera 4D Gaussian Splatting [56.926598190499156]
本稿では,4台のポータブルカメラで撮影した映像から4Dダイナミックなシーンを復元する課題に取り組む。
我々は,高忠実度4Dガウシアン・スプラッティングを実現する新しいフレームワークであるtextbf4C4Dを提案する。
論文 参考訳(メタデータ) (2026-04-05T11:09:23Z) - Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World [49.80040477190479]
人間は物理的4Dの世界に住み、幾何学的構造と意味的内容は時間とともに進化する。
さまざまな実世界および合成ビデオデータセットから構築された大規模ベンチマークであるDyn-Benchを紹介した。
既存のモデルでは,時間的推論と動的オブジェクトグラウンドの両面において,高い性能を同時に維持できないことがわかった。
論文 参考訳(メタデータ) (2026-03-13T07:42:16Z) - Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文 参考訳(メタデータ) (2025-12-23T17:56:36Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering [23.04702935216809]
我々はDynSuperCLEVRを紹介した。DynSuperCLEVRは3Dオブジェクトの動的特性の言語理解に焦点を当てた最初のビデオ質問応答データセットである。
現実的なクエリ、将来の予測、そして反現実的推論を含む3種類の質問を生成する。
提案手法は,まず物理前駆体を用いた3次元生成モデルを用いて4次元世界状態を推定し,その4次元世界状態に基づく疑問に答えるために,ニューラルシンボリック推論を用いる。
論文 参考訳(メタデータ) (2024-06-02T05:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。