論文の概要: VFM-VLM: Vision Foundation Model and Vision Language Model based Visual Comparison for 3D Pose Estimation
- arxiv url: http://arxiv.org/abs/2512.07215v2
- Date: Tue, 09 Dec 2025 06:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 14:12:23.019093
- Title: VFM-VLM: Vision Foundation Model and Vision Language Model based Visual Comparison for 3D Pose Estimation
- Title(参考訳): VFM-VLM:視覚基礎モデルと視覚言語モデルに基づく3次元空間推定のための視覚的比較
- Authors: Md Selim Sarowar, Sungho Kim,
- Abstract要約: Vision Foundation Models (VFM) と Vision Language Models (VLM) は、リッチなセマンティックおよび幾何学的表現を提供することによってコンピュータビジョンに革命をもたらした。
本稿では,手動物体把握シナリオにおける3次元ポーズ推定のためのCLIPベースとDINOv2ベースのアプローチの包括的視覚比較について述べる。
- 参考スコア(独自算出の注目度): 7.044221981512693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Foundation Models (VFMs) and Vision Language Models (VLMs) have revolutionized computer vision by providing rich semantic and geometric representations. This paper presents a comprehensive visual comparison between CLIP based and DINOv2 based approaches for 3D pose estimation in hand object grasping scenarios. We evaluate both models on the task of 6D object pose estimation and demonstrate their complementary strengths: CLIP excels in semantic understanding through language grounding, while DINOv2 provides superior dense geometric features. Through extensive experiments on benchmark datasets, we show that CLIP based methods achieve better semantic consistency, while DINOv2 based approaches demonstrate competitive performance with enhanced geometric precision. Our analysis provides insights for selecting appropriate vision models for robotic manipulation and grasping, picking applications.
- Abstract(参考訳): Vision Foundation Models (VFM) と Vision Language Models (VLM) は、リッチなセマンティックおよび幾何学的表現を提供することによってコンピュータビジョンに革命をもたらした。
本稿では,手動物体把握シナリオにおける3次元ポーズ推定のためのCLIPベースとDINOv2ベースのアプローチの包括的視覚比較について述べる。
CLIPは言語基底によるセマンティック理解に優れており、DINOv2はより高密度な幾何学的特徴を提供する。
ベンチマークデータセットに関する広範な実験により、CLIPベースの手法はよりセマンティックな一貫性を実現する一方、DINOv2ベースの手法は幾何精度を向上した競合性能を示す。
我々の分析は、ロボットの操作や把握、応用のための適切な視覚モデルを選択するための洞察を提供する。
関連論文リスト
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding [39.64540328712615]
VLM(Vision-Language Models)は、様々なタスクにまたがる優れた世界的知識を実証した。
既存のベンチマークでは、画像アノテーションに基づいた複数選択質問を通じて、VLMの具体的推論能力を評価している。
我々は,VLMの具体的推論能力を正確な視覚的接地により体系的に評価する新しいベンチマークであるPoint-It-Outベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-09-30T05:05:54Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - A Review of 3D Object Detection with Vision-Language Models [0.31457219084519]
視覚言語モデルを用いた3次元物体検出のための最初の体系的解析を行う。
ポイントクラウドとボクセルグリッドを使った従来のアプローチは、CLIPや3D LLMのようなモダンなビジョン言語フレームワークと比較される。
私たちは、限られた3D言語データセットや計算要求など、現在の課題を強調します。
論文 参考訳(メタデータ) (2025-04-25T23:27:26Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。