Fugu-MT 論文翻訳(概要): VFM-VLM: Vision Foundation Model and Vision Language Model based Visual Comparison for 3D Pose Estimation

論文の概要: VFM-VLM: Vision Foundation Model and Vision Language Model based Visual Comparison for 3D Pose Estimation

arxiv url: http://arxiv.org/abs/2512.07215v2
Date: Tue, 09 Dec 2025 06:40:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-10 14:12:23.019093
Title: VFM-VLM: Vision Foundation Model and Vision Language Model based Visual Comparison for 3D Pose Estimation
Title（参考訳）: VFM-VLM:視覚基礎モデルと視覚言語モデルに基づく3次元空間推定のための視覚的比較
Authors: Md Selim Sarowar, Sungho Kim,
Abstract要約: Vision Foundation Models (VFM) と Vision Language Models (VLM) は、リッチなセマンティックおよび幾何学的表現を提供することによってコンピュータビジョンに革命をもたらした。本稿では,手動物体把握シナリオにおける3次元ポーズ推定のためのCLIPベースとDINOv2ベースのアプローチの包括的視覚比較について述べる。
参考スコア（独自算出の注目度）: 7.044221981512693
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Foundation Models (VFMs) and Vision Language Models (VLMs) have revolutionized computer vision by providing rich semantic and geometric representations. This paper presents a comprehensive visual comparison between CLIP based and DINOv2 based approaches for 3D pose estimation in hand object grasping scenarios. We evaluate both models on the task of 6D object pose estimation and demonstrate their complementary strengths: CLIP excels in semantic understanding through language grounding, while DINOv2 provides superior dense geometric features. Through extensive experiments on benchmark datasets, we show that CLIP based methods achieve better semantic consistency, while DINOv2 based approaches demonstrate competitive performance with enhanced geometric precision. Our analysis provides insights for selecting appropriate vision models for robotic manipulation and grasping, picking applications.
Abstract（参考訳）: Vision Foundation Models (VFM) と Vision Language Models (VLM) は、リッチなセマンティックおよび幾何学的表現を提供することによってコンピュータビジョンに革命をもたらした。本稿では,手動物体把握シナリオにおける3次元ポーズ推定のためのCLIPベースとDINOv2ベースのアプローチの包括的視覚比較について述べる。 CLIPは言語基底によるセマンティック理解に優れており、DINOv2はより高密度な幾何学的特徴を提供する。ベンチマークデータセットに関する広範な実験により、CLIPベースの手法はよりセマンティックな一貫性を実現する一方、DINOv2ベースの手法は幾何精度を向上した競合性能を示す。我々の分析は、ロボットの操作や把握、応用のための適切な視覚モデルを選択するための洞察を提供する。

関連論文リスト

Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding [39.64540328712615]
VLM(Vision-Language Models)は、様々なタスクにまたがる優れた世界的知識を実証した。既存のベンチマークでは、画像アノテーションに基づいた複数選択質問を通じて、VLMの具体的推論能力を評価している。我々は,VLMの具体的推論能力を正確な視覚的接地により体系的に評価する新しいベンチマークであるPoint-It-Outベンチマークを紹介する。
論文参考訳（メタデータ） (2025-09-30T05:05:54Z)
Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文参考訳（メタデータ） (2025-07-01T04:05:47Z)
LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-03T06:15:04Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。