論文の概要: How Much 3D Do Video Foundation Models Encode?
- arxiv url: http://arxiv.org/abs/2512.19949v1
- Date: Tue, 23 Dec 2025 00:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.696319
- Title: How Much 3D Do Video Foundation Models Encode?
- Title(参考訳): ビデオファンデーションのモデルはいくらでエンコードされるのか?
- Authors: Zixuan Huang, Xiang Li, Zhaoyang Lv, James M. Rehg,
- Abstract要約: 本研究では,既存のビデオファウンデーションモデル(VidFM)の3次元理解について検討する。
各種VidFMの3次元認識を計測する最初のモデル非依存フレームワークを提案する。
現状の映像生成モデルは、3Dデータでトレーニングされていないにもかかわらず、3Dオブジェクトやシーンを強く理解していることを示す。
- 参考スコア(独自算出の注目度): 29.490293159021807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Videos are continuous 2D projections of 3D worlds. After training on large video data, will global 3D understanding naturally emerge? We study this by quantifying the 3D understanding of existing Video Foundation Models (VidFMs) pretrained on vast video data. We propose the first model-agnostic framework that measures the 3D awareness of various VidFMs by estimating multiple 3D properties from their features via shallow read-outs. Our study presents meaningful findings regarding the 3D awareness of VidFMs on multiple axes. In particular, we show that state-of-the-art video generation models exhibit a strong understanding of 3D objects and scenes, despite not being trained on any 3D data. Such understanding can even surpass that of large expert models specifically trained for 3D tasks. Our findings, together with the 3D benchmarking of major VidFMs, provide valuable observations for building scalable 3D models.
- Abstract(参考訳): ビデオは3D世界の連続した2Dプロジェクションである。
大規模ビデオデータのトレーニングの後、グローバルな3D理解は自然に現れるのか?
本研究では,既存のビデオファウンデーションモデル (VidFM) の3次元理解を定量化し,これを検証した。
浅層読み出しによる特徴量から複数の3D特性を推定することにより,様々な VidFM の3次元認識を計測する,最初のモデルに依存しないフレームワークを提案する。
本研究は,複数軸上のVidFMの3次元認識に関する有意義な知見を提示する。
特に、最先端のビデオ生成モデルは、3Dデータでトレーニングされていないにもかかわらず、3Dオブジェクトやシーンを強く理解していることを示す。
このような理解は、特に3Dタスクのために訓練された、大規模なエキスパートモデルを超えます。
我々の発見は、主要なVidFMの3Dベンチマークとともに、スケーラブルな3Dモデルを構築する上で貴重な観察を提供する。
関連論文リスト
- LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight [105.9472902251177]
次世代の予測問題として3D検出を行うVLMネイティブレシピを提案する。
このモデルでは, 49.89 AP_3Dの精度を+15.51倍に向上した。
論文 参考訳(メタデータ) (2025-11-25T18:59:45Z) - Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors [24.261272070476934]
これまで,ビデオとして解釈することで3次元シーンの理解にMLLM(Multimodal Large Language Models)を適用する研究が続けられてきた。
ビデオ3次元幾何大言語モデル(VG LLM)と呼ばれる新しい,効率的な手法を提案する。
提案手法では,映像系列から3次元先行情報を抽出するために3次元ビジュアルジオメトリエンコーダを用いる。
論文 参考訳(メタデータ) (2025-05-30T14:16:41Z) - Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。
Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-04-02T16:59:55Z) - You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。