論文の概要: Towards Cross-View Point Correspondence in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.04686v1
- Date: Thu, 04 Dec 2025 11:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.132125
- Title: Towards Cross-View Point Correspondence in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるクロスビューポイント対応に向けて
- Authors: Yipu Wang, Yuheng Ji, Yuyang Liu, Enshen Zhou, Ziqiang Yang, Yuxuan Tian, Ziheng Qin, Yue Liu, Huajie Tan, Cheng Chi, Zhiyuan Ma, Daniel Dajun Zeng, Xiaolong Zheng,
- Abstract要約: クロスビュー対応は、空間的理解と具体的AIの基本的な能力である。
階層設計の総合的なベンチマークであるクロスビューポイント対応タスクとクロスポイントベンチを提案する。
我々のCroPondはCrossPoint-Benchの最先端性能を達成し、Gemini-2.5-Proを39.7%精度で上回っている。
- 参考スコア(独自算出の注目度): 25.771841201852563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view correspondence is a fundamental capability for spatial understanding and embodied AI. However, it is still far from being realized in Vision-Language Models (VLMs), especially in achieving precise point-level correspondence, which is crucial for precise affordance interaction. So we propose the Cross-View Point Correspondence (CVPC) task and CrossPoint-Bench, a comprehensive benchmark with hierarchical design, inspired by the human cognitive process of "perceive", "reason", and "correspond". Our evaluation shows the state-of-the-art models (e.g., Gemini-2.5-Pro) still fall far behind humans, with a gap of over 54.65% in overall accuracy, exposing a challenge in transitioning from coarse-grained judgement to fine-grained coordinate prediction. To address this problem, we construct CrossPoint-378K, a dataset with 378K question-answering pairs across 900 scenes, focused on actionable affordance regions that better reflect real-world manipulation and interaction scenarios. Furthermore, we propose CroPond that trained on the CrossPoint-378K dataset. Our CroPond achieves state-of-the-art performance on CrossPoint-Bench, surpassing Gemini-2.5-Pro by 39.7% accuracy, which offers a foundation for advancing future work on cross-view correspondence. The benchmark, dataset, and model are publicly available at https://github.com/WangYipu2002/CrossPoint.
- Abstract(参考訳): クロスビュー対応は、空間的理解と具体的AIの基本的な能力である。
しかし、VLM(Vision-Language Models)において実現されるには程遠い。
そこで我々は,Cross-View Point Cor correspondingence (CVPC) タスクとCrossPoint-Benchを提案する。
我々の評価では、最先端のモデル(例:Gemini-2.5-Pro)はまだ人間よりはるかに遅れており、全体の精度は54.65%以上で、粗い粒度の判断から微粒度の座標予測への移行の難しさが浮き彫りになっている。
この問題に対処するため,900シーンにわたる378Kの質問応答ペアを備えたデータセットであるCrossPoint-378Kを構築した。
さらに,CrossPoint-378KデータセットをトレーニングしたCroPondを提案する。
我々のCroPondは、CrossPoint-Benchにおける最先端のパフォーマンスを達成し、Gemini-2.5-Proを39.7%の精度で上回っている。
ベンチマーク、データセット、モデルはhttps://github.com/WangYipu2002/CrossPointで公開されている。
関連論文リスト
- MatchAttention: Matching the Relative Positions for High-Resolution Cross-View Matching [11.58359962687585]
クロスビューマッチングは、基本的にクロスアテンション機構によって達成される。
本稿では,相対的な位置と動的に一致する注意機構であるMatchAttentionを提案する。
提案したモデルは、KITTI 2012、KITTI 2015、ETH3D、Springフローデータセット上での最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2025-10-16T03:21:28Z) - Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - Cross-View Completion Models are Zero-shot Correspondence Estimators [32.656925289717805]
クロスビューコンプリートモデル内のクロスアテンションマップは、エンコーダやデコーダの特徴から導かれる他の相関関係よりも、より効率的に対応をキャプチャすることを示した。
ゼロショットマッチングと学習ベース幾何マッチングと多フレーム深度推定の両方を用いて,クロスアテンションマップの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-12T08:58:20Z) - VoxelKP: A Voxel-based Network Architecture for Human Keypoint
Estimation in LiDAR Data [53.638818890966036]
textitVoxelKPは、LiDARデータにおける人間のキーポイント推定に適した、完全にスパースなネットワークアーキテクチャである。
本研究では,人間の各インスタンス内のキーポイント間の空間的相関を学習するために,スパースボックスアテンションを導入する。
鳥の視線を符号化する2次元格子に3次元ボクセルを投影する際に, 絶対的な3次元座標を利用するために空間符号化を組み込んだ。
論文 参考訳(メタデータ) (2023-12-11T23:50:14Z) - Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence [80.6840060272386]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
提案手法は,SPair-71kデータセット上で,65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成する。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot
Interactions [23.296139146133573]
言語あいまいさ下での対話型視覚グラウンドのための大規模データセットであるinvigを提示する。
我々のデータセットは、オープンな目標指向の曖昧さの対話を伴う520K以上の画像で構成されている。
私たちの知る限りでは、Invigデータセットは、オープンエンドのインタラクティブな視覚的グラウンドを解決するための、最初の大規模データセットです。
論文 参考訳(メタデータ) (2023-10-18T17:57:05Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Cross-Level Cross-Scale Cross-Attention Network for Point Cloud
Representation [8.76786786874107]
最近、自然言語処理(NLP)と画像処理領域の顕著な進歩を達成した自己保持メカニズム。
ポイントクラウド表現学習のためのクロスレベルクロススケールクロスアテンションネットワーク(CLCSCANet)と呼ばれるエンドツーエンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-27T09:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。