論文の概要: 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation
- arxiv url: http://arxiv.org/abs/2506.09883v1
- Date: Wed, 11 Jun 2025 15:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.109412
- Title: 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation
- Title(参考訳): 幾何学的蒸留による3次元視覚言語モデルの微調整
- Authors: Seonho Lee, Jiho Choi, Inha Kang, Jiwook Kim, Junsung Park, Hyunjung Shim,
- Abstract要約: VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
- 参考スコア(独自算出の注目度): 17.294440057314812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have shown remarkable performance on diverse visual and linguistic tasks, yet they remain fundamentally limited in their understanding of 3D spatial structures. We propose Geometric Distillation, a lightweight, annotation-free fine-tuning framework that injects human-inspired geometric cues into pretrained VLMs without modifying their architecture. By distilling (1) sparse correspondences, (2) relative depth relations, and (3) dense cost volumes from off-the-shelf 3D foundation models (e.g., MASt3R, VGGT), our method shapes representations to be geometry-aware while remaining compatible with natural image-text inputs. Through extensive evaluations on 3D vision-language reasoning and 3D perception benchmarks, our method consistently outperforms prior approaches, achieving improved 3D spatial reasoning with significantly lower computational cost. Our work demonstrates a scalable and efficient path to bridge 2D-trained VLMs with 3D understanding, opening up wider use in spatially grounded multimodal tasks.
- Abstract(参考訳): VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示してきたが、3次元空間構造に対する理解においては基本的に制限されている。
提案するGeometric Distillationは,人為的な幾何学的手がかりを事前訓練されたVLMに注入する,軽量でアノテーションのない微調整フレームワークである。
本手法は,(1)スパース対応,(2)相対深度関係,(3)オフザシェルフ3次元基礎モデル(例えばMASt3R,VGGT)の高密度コストボリュームを蒸留することにより,自然な画像テキスト入力と互換性を維持しつつ,幾何学的に認識可能な表現を形作る。
3次元視覚言語推論と3次元知覚ベンチマークの広範囲な評価により,提案手法は従来手法よりも優れた性能を示し,計算コストを大幅に低減した3次元空間推論を実現している。
本研究は,2次元学習型VLMを3次元理解で橋渡しし,空間的に接地されたマルチモーダルタスクにおいてより広い利用範囲を開放する,スケーラブルで効率的な経路を示す。
関連論文リスト
- VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - Learning A Zero-shot Occupancy Network from Vision Foundation Models via Self-supervised Adaptation [41.98740330990215]
本研究は,2次元視覚基礎モデルと3次元タスクをブリッジする新しい手法を提案する。
視覚言語モデルのゼロショット機能を画像意味論に活用する。
我々は、再構成されたメートル法深度を用いて意味を3次元空間に投影し、3次元の監視を行う。
論文 参考訳(メタデータ) (2025-03-10T09:54:40Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Translational Symmetry-Aware Facade Parsing for 3D Building
Reconstruction [11.263458202880038]
本稿では,深部ニューラルネットワーク改善のための新しい翻訳対称性に基づくアプローチを提案する。
本研究では,単一段ネットワークにおけるアンカーフリー検出を融合させる新しい手法を提案する。
我々はBlenderのような市販のレンダリングエンジンを使用して、手続きモデルを用いて現実的な高品質な3Dモデルを再構築する。
論文 参考訳(メタデータ) (2021-06-02T03:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。