論文の概要: 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation
- arxiv url: http://arxiv.org/abs/2512.17012v1
- Date: Thu, 18 Dec 2025 19:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.14491
- Title: 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation
- Title(参考訳): 4D-RGPT: 知覚蒸留による地域レベルの4D理解に向けて
- Authors: Chiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen,
- Abstract要約: 4D-RGPTは、時間知覚を増強したビデオ入力から4D表現をキャプチャするために設計された特殊なMLLMである。
P4Dは凍結したエキスパートモデルから総合的な4D知覚のために4D-RGPTに4D表現を転送するトレーニングフレームワークである。
R4D-Benchは、地域レベルのプロンプトを備えた深度対応動的シーンのベンチマークである。
- 参考スコア(独自算出の注目度): 78.63581010756023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.
- Abstract(参考訳): MLLM(Multimodal LLMs)の進歩にもかかわらず、3次元構造と時間力学を推論する能力は、弱い4次元知覚と時間的理解によって制限されている。
既存の3Dおよび4D Video Question Answering (VQA)ベンチマークも静的シーンを強調しており、領域レベルのプロンプトが欠如している。
これらの問題に,導入によって対処する。
(a)4D-RGPTは、時間知覚を増強した映像入力から4D表現をキャプチャする専用MLLMである。
b)凍結した専門家モデルから4D-RGPTに4D表現を変換して総合的な4D知覚を行う学習フレームワークである知覚的4D蒸留(P4D)
(c)R4D-Benchは、地域レベルのプロンプトを備えた深度認識動的シーンのベンチマークであり、ハイブリッド自動検証パイプラインと人間検証パイプラインによって構築されている。
我々の4D-RGPTは、既存の4D VQAベンチマークと提案したR4D-Benchベンチマークの両方で顕著に改善されている。
関連論文リスト
- C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes [65.76371201992654]
そこで本研究では,新しい4D再構成ベンチマークであるWideRange4Dを提案する。
このベンチマークには、空間変動が大きいリッチな4Dシーンデータが含まれており、より包括的な4D生成手法の生成能力を評価できる。
また,様々な複雑な4Dシーン再構成タスクに対して,安定かつ高品質な4D結果を生成する新しい4D再構成手法であるProgress4Dを導入する。
論文 参考訳(メタデータ) (2025-03-17T17:58:18Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。