論文の概要: Reconstructing 4D Spatial Intelligence: A Survey
- arxiv url: http://arxiv.org/abs/2507.21045v1
- Date: Mon, 28 Jul 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.245786
- Title: Reconstructing 4D Spatial Intelligence: A Survey
- Title(参考訳): 4次元空間知能の再構築に関する調査
- Authors: Yukang Cao, Jiahao Lu, Zhisheng Huang, Zhuowei Shen, Chengfeng Zhao, Fangzhou Hong, Zhaoxi Chen, Xin Li, Wenping Wang, Yuan Liu, Ziwei Liu,
- Abstract要約: 視覚観測から4D空間インテリジェンスを再構築することは、長い間、コンピュータビジョンにおける中心的かつ困難な課題であった。
我々は,既存の手法を5つの段階の4次元空間知能に整理する新たな視点を提案する。
- 参考スコア(独自算出の注目度): 57.8684548664209
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reconstructing 4D spatial intelligence from visual observations has long been a central yet challenging task in computer vision, with broad real-world applications. These range from entertainment domains like movies, where the focus is often on reconstructing fundamental visual elements, to embodied AI, which emphasizes interaction modeling and physical realism. Fueled by rapid advances in 3D representations and deep learning architectures, the field has evolved quickly, outpacing the scope of previous surveys. Additionally, existing surveys rarely offer a comprehensive analysis of the hierarchical structure of 4D scene reconstruction. To address this gap, we present a new perspective that organizes existing methods into five progressive levels of 4D spatial intelligence: (1) Level 1 -- reconstruction of low-level 3D attributes (e.g., depth, pose, and point maps); (2) Level 2 -- reconstruction of 3D scene components (e.g., objects, humans, structures); (3) Level 3 -- reconstruction of 4D dynamic scenes; (4) Level 4 -- modeling of interactions among scene components; and (5) Level 5 -- incorporation of physical laws and constraints. We conclude the survey by discussing the key challenges at each level and highlighting promising directions for advancing toward even richer levels of 4D spatial intelligence. To track ongoing developments, we maintain an up-to-date project page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
- Abstract(参考訳): 視覚観測から4D空間インテリジェンスを再構築することは、コンピュータビジョンの中心的かつ挑戦的な課題であり、幅広い現実世界の応用がなされてきた。
これらは映画のようなエンターテイメント分野から、基本的な視覚要素の再構築に重点を置くものから、相互作用モデリングと物理的なリアリズムを強調するAIまで様々である。
3D表現とディープラーニングアーキテクチャの急速な進歩によって、この分野は急速に発展し、以前の調査の範囲を上回りました。
さらに,4次元シーン再構築の階層構造を包括的に分析することは滅多にない。
1)低次元の3D属性(例えば、深さ、ポーズ、ポイントマップ)の再構築、(2)3次元のシーンコンポーネント(例えば、物体、人、構造)の再構築、(3)3次元のダイナミックなシーンの再構築、(4)4次元のシーンコンポーネント間の相互作用のモデリング、(5)レベル5の物理法則と制約の組み込み。
本調査は,各レベルの課題を議論し,よりリッチな4次元空間知能レベルに向けて進む上での有望な方向性を明らかにすることで結論付けた。
進行中の開発を追跡するため、私たちは最新のプロジェクトページを維持しています。
関連論文リスト
- From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes [16.38713257618971]
Anywhere3D-Benchは2,632個の表現3D境界ボックスペアからなる総合的な3D視覚的グラウンドベンチマークである。
我々は,大規模言語モデルとともに,最先端の3次元視覚的グラウンドディング手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-05T11:28:02Z) - WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes [65.76371201992654]
そこで本研究では,新しい4D再構成ベンチマークであるWideRange4Dを提案する。
このベンチマークには、空間変動が大きいリッチな4Dシーンデータが含まれており、より包括的な4D生成手法の生成能力を評価できる。
また,様々な複雑な4Dシーン再構成タスクに対して,安定かつ高品質な4D結果を生成する新しい4D再構成手法であるProgress4Dを導入する。
論文 参考訳(メタデータ) (2025-03-17T17:58:18Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z) - 4D Attention: Comprehensive Framework for Spatio-Temporal Gaze Mapping [4.215251065887861]
本研究では、視線追跡メガネを用いた視線時間領域における人間の注意を捉えるための枠組みを提案する。
直接視覚的局所化と慣性計測ユニット(IMU)の値の疎結合を利用して、ポーズを推定する。
本フレームワークに再構成部品を組み込むことにより,入力テクスチャに基づいて3次元環境に収まらない動的オブジェクトをインスタンス化する。
論文 参考訳(メタデータ) (2021-07-08T04:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。