論文の概要: Advances in 4D Representation: Geometry, Motion, and Interaction
- arxiv url: http://arxiv.org/abs/2510.19255v1
- Date: Wed, 22 Oct 2025 05:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.137489
- Title: Advances in 4D Representation: Geometry, Motion, and Interaction
- Title(参考訳): 4次元表現の進歩:幾何学・運動・相互作用
- Authors: Mingrui Zhao, Sauradip Nag, Kai Wang, Aditya Vora, Guangda Ji, Peter Chun, Ali Mahdavi-Amiri, Hao Zhang,
- Abstract要約: コンピュータグラフィックスの高速進化サブフィールドである4次元生成と再構成について調査する。
私たちは4D表現のユニークで独特な視点から、ドメインのカバレッジを構築します。
- 参考スコア(独自算出の注目度): 21.99533577912307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a survey on 4D generation and reconstruction, a fast-evolving subfield of computer graphics whose developments have been propelled by recent advances in neural fields, geometric and motion deep learning, as well 3D generative artificial intelligence (GenAI). While our survey is not the first of its kind, we build our coverage of the domain from a unique and distinctive perspective of 4D representations\/}, to model 3D geometry evolving over time while exhibiting motion and interaction. Specifically, instead of offering an exhaustive enumeration of many works, we take a more selective approach by focusing on representative works to highlight both the desirable properties and ensuing challenges of each representation under different computation, application, and data scenarios. The main take-away message we aim to convey to the readers is on how to select and then customize the appropriate 4D representations for their tasks. Organizationally, we separate the 4D representations based on three key pillars: geometry, motion, and interaction. Our discourse will not only encompass the most popular representations of today, such as neural radiance fields (NeRFs) and 3D Gaussian Splatting (3DGS), but also bring attention to relatively under-explored representations in the 4D context, such as structured models and long-range motions. Throughout our survey, we will reprise the role of large language models (LLMs) and video foundational models (VFMs) in a variety of 4D applications, while steering our discussion towards their current limitations and how they can be addressed. We also provide a dedicated coverage on what 4D datasets are currently available, as well as what is lacking, in driving the subfield forward. Project page:https://mingrui-zhao.github.io/4DRep-GMI/
- Abstract(参考訳): コンピュータグラフィックスの高速進化サブフィールドである4D生成と再構築に関する調査を,近年のニューラルネットワーク,幾何学的・運動的深層学習,および3D生成人工知能(GenAI)の進歩によって進展している。
この種の調査は今回が初めてではないが、4D表現の独特で独特な視点からドメインのカバレッジを構築し、動きと相互作用を示しながら時間とともに進化する3D幾何学をモデル化する。
具体的には、多くの作品を包括的に列挙する代わりに、さまざまな計算、アプリケーション、データシナリオにおいて、望ましい特性と各表現の課題の両方を強調するために、代表作品に焦点を合わせることで、より選択的なアプローチをとる。
私たちが読者に伝えようとしている主なメッセージは、タスクに対して適切な4D表現を選択してカスタマイズする方法です。
組織的には、幾何学、運動、相互作用の3つの重要な柱に基づいて、4D表現を分離する。
我々の談話は、ニューラルラディアンス場(NeRF)や3Dガウススプラッティング(3DGS)のような今日の最も一般的な表現だけでなく、構造化されたモデルや長距離運動のような4Dの文脈における比較的未探索の表現にも注目する。
調査を通じて、我々は、様々な4Dアプリケーションにおける大規模言語モデル(LLM)とビデオ基礎モデル(VFM)の役割を再考するとともに、現在の制限と対処方法について議論する。
また、サブフィールドを前進させる上で、現在利用可能な4Dデータセットや、不足しているものについても、専用のカバレッジを提供しています。
プロジェクトページ:https://mingrui-zhao.github.io/4DRep-GMI/
関連論文リスト
- 3D and 4D World Modeling: A Survey [104.20852751473392]
世界モデリングはAI研究の基盤となり、エージェントが住んでいる動的な環境を理解し、表現し、予測することができるようになった。
我々は、ビデオベース(VideoGen)、占領ベース(OccGen)、LiDARベース(LiDARGen)のアプローチにまたがる構造的分類法を導入する。
実践的応用について議論し、オープン課題を特定し、有望な研究方向性を明らかにする。
論文 参考訳(メタデータ) (2025-09-04T17:59:58Z) - Reconstructing 4D Spatial Intelligence: A Survey [57.8684548664209]
視覚観測から4D空間インテリジェンスを再構築することは、長い間、コンピュータビジョンにおける中心的かつ困難な課題であった。
我々は,既存の手法を5つの段階の4次元空間知能に整理する新たな視点を提案する。
論文 参考訳(メタデータ) (2025-07-28T17:59:02Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文 参考訳(メタデータ) (2025-03-26T17:56:16Z) - Advances in 4D Generation: A Survey [23.041037534410773]
4D生成により、インタラクティブで没入的な体験がより豊かになる。
急速な進歩にもかかわらず、この分野には4D表現、生成フレームワーク、基本的なパラダイム、それに直面する中核的な技術的課題の統一的な理解が欠けている。
この調査は、4D世代環境の体系的かつ詳細なレビューを提供する。
論文 参考訳(メタデータ) (2025-03-18T17:59:51Z) - Neural 4D Evolution under Large Topological Changes from 2D Images [5.678824325812255]
本研究では,大きなトポロジ的変化の下での3次元神経進化を4次元に拡張する上での課題に対処する。
i) 変形を識別・符号化する新しいアーキテクチャを導入し, SDF を学習し, (ii) 時間的一貫性を強制する手法を提案する。
2次元画像から直接の学習を容易にするために,RGB画像から幾何学や外観を遠ざける学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T15:47:42Z) - NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding [20.79861588128133]
NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。
屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2023-10-12T13:42:49Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。