論文の概要: Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes
- arxiv url: http://arxiv.org/abs/2506.16805v1
- Date: Fri, 20 Jun 2025 07:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.373031
- Title: Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes
- Title(参考訳): Co-VisiON: 屋内シーンのスパースイメージセットによるコバイザビリティの考察
- Authors: Chao Chen, Nobel Dang, Juexiao Zhang, Wenkai Sun, Pengfei Zheng, Xuhang He, Yimeng Ye, Taarun Srinivas, Chen Feng,
- Abstract要約: スパース画像集合上でのコ・ヴィジビリティ推論を評価するために,コ・ヴィジビリティ・リアソニング・ベンチマークを導入する。
実験の結果,コビジュアビリティは一般に低レベルの特徴マッチングタスクとして扱われるが,スパース条件下での既存の視覚モデルには大きな課題が生じることがわかった。
本稿では,純視覚モデルにおける最高性能を達成し,プロプライエタリなVLMとのギャップを狭める,新しい多視点ベースラインであるCovisを提案する。
- 参考スコア(独自算出の注目度): 7.618903557405768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans exhibit a remarkable ability to recognize co-visibility-the overlapping regions visible in multiple images-even when these images are sparsely distributed across a complex scene. This capability is foundational in 3D vision and robotic perception. Despite significant progress in vision learning, it remains unclear whether current vision models have reached human-level proficiency in co-visibility analysis. In this work, we introduce the Co-Visibility reasONing (Co-VisiON) benchmark, designed to directly evaluate co-visibility reasoning on sparse image sets across over 1000 indoor scenarios. Our experiments reveal that while co-visibility is typically treated as a low-level feature matching task, it poses a significant challenge for existing vision models under sparse conditions. Notably, a proprietary vision-language model outperforms all purely vision-based approaches, with all models lagging substantially behind human performance. This gap underscores the need for more than basic pairwise vision processing-it calls for a comprehensive spatial understanding through high-level reasoning across multiple views. Inspired by human visual cognition, we propose a novel multi-view baseline, Covis, which achieves top performance among pure vision models and narrows the gap to the proprietary VLM. We hope our benchmark and findings will spur further advancements in developing vision models capable of robust, high-level reasoning in challenging, sparse environments. Our dataset and source code can be found at: https://ai4ce.github.io/CoVISION
- Abstract(参考訳): 人間は、複雑なシーンに散らばっているときにも、複数の画像に写っている視認性と重なり合う領域を認識する素晴らしい能力を示す。
この能力は3D視覚とロボット知覚の基礎となる。
視覚学習の進歩にもかかわらず、現在の視覚モデルがコ・ヴィジュアビリティ・アナリティクスにおいて人間レベルの習熟度に達しているかどうかは不明である。
本研究では,1000以上の屋内シナリオにおけるスパース画像の共可視推論を直接評価するCo-Visibility reasONing(Co-VisiON)ベンチマークを提案する。
実験の結果,コビジュアビリティは一般に低レベルの特徴マッチングタスクとして扱われるが,スパース条件下での既存の視覚モデルには大きな課題が生じることがわかった。
特に、プロプライエタリな視覚言語モデルは、純粋に視覚ベースのアプローチよりも優れており、すべてのモデルは人間のパフォーマンスを大幅に遅れている。
このギャップは、複数のビューにまたがる高レベルの推論を通じて包括的な空間的理解を求める、基本的なペアワイズ・ビジョン・プロセッシング以上の必要性を浮き彫りにする。
人間の視覚認知にインスパイアされた新しい多視点ベースラインであるCovisを提案する。これは純粋な視覚モデルの中で最高の性能を達成し、プロプライエタリなVLMとのギャップを狭める。
当社のベンチマークと調査結果は、困難でスパースな環境において、堅牢でハイレベルな推論が可能なビジョンモデルの開発において、さらなる進歩を後押しすることを期待しています。
私たちのデータセットとソースコードは以下の通りです。
関連論文リスト
- ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images [1.8668361563848481]
TDBenchは、トップダウン画像理解におけるVLM(Vision-Language Models)の包括的なベンチマークである。
画像理解の10つの評価次元にまたがる視覚的質問応答対で構成されている。
現実のシナリオでは一般的に発生するが、探索は少ない4つのケーススタディを実行します。
論文 参考訳(メタデータ) (2025-04-01T19:01:13Z) - CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models [12.150101028377565]
視覚言語モデル(VLM)の連続空間知覚能力を評価するためのベンチマークであるCoSpaceを提案する。
結果から,プロプライエタリなモデルを含むほとんどの評価モデルに対して,連続空間知覚能力に落とし穴があることが判明した。
論文 参考訳(メタデータ) (2025-03-18T11:31:58Z) - FeatSharp: Your Vision Model Features, Sharper [64.25786703202414]
低解像度ビジョンエンコーダの特徴マップを協調的に安価にアップサンプリングする新しい手法を提案する。
本稿では,この手法がコア認識タスクおよび集約モデル(RADIO)トレーニングにおいて有効であることを示す。
論文 参考訳(メタデータ) (2025-02-22T00:54:49Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。