論文の概要: DepthLM: Metric Depth From Vision Language Models
- arxiv url: http://arxiv.org/abs/2509.25413v2
- Date: Wed, 01 Oct 2025 17:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.826558
- Title: DepthLM: Metric Depth From Vision Language Models
- Title(参考訳): DepthLM: ビジョン言語モデルからのメトリクスの深さ
- Authors: Zhipeng Cai, Ching-Feng Yeh, Hu Xu, Zhuang Liu, Gregory Meyer, Xinjie Lei, Changsheng Zhao, Shang-Wen Li, Vikas Chandra, Yangyang Shi,
- Abstract要約: 視覚言語モデル(VLM)はテキストインタラクションによって様々な視覚タスクに柔軟に対応できる。
アーキテクチャや損失変更なしに、専門家レベルの精度に達することができることを示す。
提案手法は,最も進んだVLMの精度を2倍以上上回る。
- 参考スコア(独自算出の注目度): 31.109287887180404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision language models (VLMs) can flexibly address various vision tasks through text interactions. Although successful in semantic understanding, state-of-the-art VLMs including GPT-5 still struggle in understanding 3D from 2D inputs. On the other hand, expert pure vision models achieve super-human accuracy in metric depth estimation, a key 3D understanding task. However, they require task-specific architectures and losses. Such difference motivates us to ask: Can VLMs reach expert-level accuracy without architecture or loss change? We take per-pixel metric depth estimation as the representative task and show that the answer is yes! Surprisingly, comprehensive analysis shows that text-based supervised-finetuning with sparse labels is sufficient for VLMs to unlock strong 3D understanding, no dense prediction head or complex regression/regularization loss is needed. The bottleneck for VLMs lies actually in pixel reference and cross-dataset camera ambiguity, which we address through visual prompting and intrinsic-conditioned augmentation. With much smaller models, our method DepthLM surpasses the accuracy of most advanced VLMs by over 2x, making VLMs for the first time comparable with pure vision models. Interestingly, without explicit enforcement during training, VLMs trained with DepthLM naturally avoids over-smoothing, having much fewer flying points at boundary regions than pure vision models. The simplicity of DepthLM also enables a single VLM to cover various 3D tasks beyond metric depth. Our code and model will be released at the link below.
- Abstract(参考訳): 視覚言語モデル(VLM)はテキストインタラクションによって様々な視覚タスクに柔軟に対応できる。
意味理解に成功しているが、GPT-5を含む最先端のVLMは、2D入力からの3D理解に苦戦している。
一方、専門的な純粋視覚モデルは、重要な3次元理解課題であるメートル法深度推定において超人的精度を達成する。
しかし、それらはタスク固有のアーキテクチャと損失を必要とします。
VLMはアーキテクチャや損失の変化なしに、専門家レベルの精度に達することができますか?
画素ごとのメートル法深度推定を代表課題とし、その答えがイエスであることを示す。
驚くべきことに、総合的な分析によると、テキストベースの教師ありファインタニングとスパースラベルは、VLMが強力な3D理解を解き放つのに十分であり、高密度な予測ヘッドや複雑な回帰/正規化損失は不要である。
VLMのボトルネックは、実際にはピクセル参照とクロスデータセットカメラの曖昧さにある。
より小さなモデルでは、DepthLMは最も進んだVLMの精度を2倍以上上回り、VLMを純粋な視覚モデルと初めて比較した。
興味深いことに、訓練中に明示的な強制がなければ、DepthLMで訓練されたVLMは、純粋な視覚モデルよりも境界領域での飛行点がはるかに少ないため、自然に過密を避けることができる。
DepthLMの単純さにより、単一のVLMはメートル法深度を超える様々な3Dタスクをカバーできる。
私たちのコードとモデルは、以下のリンクでリリースされます。
関連論文リスト
- Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models [39.488763757826426]
2次元視覚言語モデル(VLM)は、画像テキスト理解タスクにおいて大きな進歩を遂げている。
近年の進歩は、3Dポイントクラウドとマルチビューイメージを入力として活用し、有望な結果をもたらしている。
人間の知覚にインスパイアされた視覚ベースのソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:59Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。