論文の概要: SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2605.31597v2
- Date: Mon, 01 Jun 2026 17:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.936139
- Title: SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models
- Title(参考訳): SOCO:ビジョンファウンデーションモデルにおける意味的オブジェクト対応のベンチマーク
- Authors: Olaf Dünkel, Basavaraj Sunagad, Haoran Wang, David T. Hoffmann, Christian Theobalt, Adam Kortylewski,
- Abstract要約: セマンティックオブジェクト対応のための新しいベンチマークであるSOCOを紹介する。
視覚基盤のバックボーンは強い意味構造をエンコードするが、関連するカテゴリ間での伝達対応は不十分であることを示す。
また,LVLMは画像マッチングよりもテキストプロンプト部分のローカライゼーションが優れていることを示す。
- 参考スコア(独自算出の注目度): 63.28435103335999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring structured object understanding in vision foundation models remains challenging due to inconsistent evaluation protocols and limited part-level supervision. Semantic correspondence (SC) evaluates this capability by testing whether object parts can be matched across instances and categories under large variations in appearance, viewpoint, and geometry. To enable a systematic SC evaluation, we introduce SOCO, a new benchmark for Semantic Object Correspondence that introduces a taxonomy of correspondence types and provides consistent, functionally meaningful keypoint annotations across 100 categories and over 1M correspondence pairs. In addition, SOCO includes keypoint language descriptions, enabling the evaluation of large vision-language models (LVLMs) and their fine-grained part-level understanding. Comprehensive experiments reveal that (i) vision foundation backbones encode strong semantic structure but transfer correspondences poorly across related categories and only partially capture object-part position, (ii) LVLMs are stronger at text-prompted part localization than at visual-reference cross-image matching, exposing a gap between language-grounded localization and fine-grained visual correspondence, and (iii) correspondence performance predicts performance on dense downstream tasks, including segmentation, tracking, 3D pose estimation, and 3D detection, more strongly than ImageNet classification. Together, these findings position SOCO as a benchmark for structured, part-level representation quality in vision and multimodal foundation models.
- Abstract(参考訳): 視覚基盤モデルにおける構造化対象理解の測定は、一貫性のない評価プロトコルと限られた部分レベルの監督のため、依然として困難である。
意味対応(SC)は、外見、視点、幾何学の大きなバリエーションの下で、オブジェクト部品がインスタンスやカテゴリ間で一致できるかどうかをテストすることによって、この能力を評価する。
SC評価の体系化を実現するため,セマンティックオブジェクト対応の新しいベンチマークであるSOCOを導入し,対応型の分類を導入し,100のカテゴリと100万以上の対応ペアに対して一貫した,機能的に意味のあるキーポイントアノテーションを提供する。
さらに、SOCOにはキーポイント言語記述が含まれており、大きな視覚言語モデル(LVLM)の評価と、その粒度の細かい部分レベルの理解を可能にしている。
総合的な実験で明らかになる
(i)視覚基盤のバックボーンは、強い意味構造をエンコードするが、関連するカテゴリ間での伝達対応は不十分であり、対象部分の位置を部分的に捉えているだけである。
(II)LVLMは、視覚参照画像マッチングよりもテキストプロンプト部分のローカライゼーションが強く、言語基底のローカライゼーションときめ細かい視覚対応のギャップを露呈する。
三 対応性能は、画像ネット分類より強く、セグメンテーション、トラッキング、3次元ポーズ推定、3次元検出などの高密度下流タスクの性能を予測する。
これらの結果から,SOCOを視覚およびマルチモーダル基礎モデルの構造化された部分レベル表現品質のベンチマークとして位置づけた。
関連論文リスト
- Beyond Referring Expressions: Scenario Comprehension Visual Grounding [18.49037321302958]
既存のベンチマークは、主に画像領域とリテラル参照表現のアライメントを評価する。
シナリオベースの視覚的グラウンドの補完的かつより困難な設定について検討し、明確な命名ではなく、ターゲットを役割、意図、文脈から推論する必要がある。
この設定のために設計されたベンチマークであるReferring Scenario(RSC)を紹介する。RCCには、約31kのトレーニング例、4kのドメイン内テスト例と、見えないオブジェクトカテゴリで分割された3kのアウト・オブ・ディストリビューションが含まれている。
論文 参考訳(メタデータ) (2026-04-02T17:59:08Z) - PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation [58.1914505657064]
本稿では,クラスレベルのセマンティクスと空間コンテキスト間の知識干渉の課題を軽減するために,単純な並列コストアグリゲーション(PCA-Seg)パラダイムを提案する。
8つのベンチマークの実験では、PCA-Segの各並列ブロックは0.35万のパラメータしか追加せず、最先端のOSPS性能を実現している。
論文 参考訳(メタデータ) (2026-03-18T09:26:43Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Prompt the Unseen: Evaluating Visual-Language Alignment Beyond Supervision [22.712690974750007]
VLM(Vision-Language Models)は、視覚エンコーダと大規模言語モデル(LLM)を組み合わせたアライメントトレーニングである。
その重要性にもかかわらず、投影層が見えない視覚概念を一般化する能力は体系的に評価されていない。
本研究ではアライメント一般化のための新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-31T05:00:51Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Composed Object Retrieval: Object-level Retrieval via Composed Expressions [71.47650333199628]
Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。
COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。
また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
論文 参考訳(メタデータ) (2025-08-06T13:11:40Z) - Bridge the Gap Between Visual and Linguistic Comprehension for Generalized Zero-shot Semantic Segmentation [39.17707407384492]
汎用ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、目に見えないクラスや見えないクラスのセグメンテーションを実現することを目的としている。
本稿では,空間部品 (SPMatch) とチャネル状態 (CSMatch) マッチングモジュールからなるデカップリング型視覚言語マッチング (DeVLMatch) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:39:14Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。