論文の概要: Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes
- arxiv url: http://arxiv.org/abs/2506.16805v2
- Date: Sun, 06 Jul 2025 07:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.417661
- Title: Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes
- Title(参考訳): Co-VisiON: 屋内シーンのスパースイメージセットによるコバイザビリティの考察
- Authors: Chao Chen, Nobel Dang, Juexiao Zhang, Wenkai Sun, Pengfei Zheng, Xuhang He, Yimeng Ye, Jiasheng Zhang, Taarun Srinivas, Chen Feng,
- Abstract要約: 我々は,1000以上のスパースビュー屋内シナリオにおいて,人間にインスパイアされたコビジュアビリティ推論を評価するために設計されたCo-VisiONベンチマークを紹介した。
この結果から,コビジュアビリティは低レベルな特徴マッチングタスクとして扱われることが多いが,スパース条件下での既存の視覚モデルでは依然として困難であることがわかった。
本稿では,純視覚モデルにおける最高性能を達成し,プロプライエタリなVLMとのギャップを狭める,新しい多視点ベースラインであるCovisを提案する。
- 参考スコア(独自算出の注目度): 8.941800684473202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans exhibit a remarkable ability to recognize co-visibility-the 3D regions simultaneously visible in multiple images-even when these images are sparsely distributed across a complex scene. This capability is foundational in 3D vision, robotic perception, and relies not only on low-level feature matching but also on high-level spatial reasoning and cognitive integration. Yet, it remains unclear whether current vision models can replicate this human-level proficiency. In this work, we introduce the Co-VisiON benchmark, designed to evaluate human-inspired co-visibility reasoning across over 1,000 sparse-view indoor scenarios. Our results show that while co-visibility is often approached as a low-level feature-matching task, it remains challenging for existing vision models under sparse conditions. Notably, a proprietary vision-language model surpasses all vision-only baselines, but all models fall significantly short of human performance. This gap underscores the limitations of current architectures and motivates the need for models that integrate spatial and semantic information in a human-like manner. Inspired by human visual cognition, we propose a novel multi-view baseline, Covis, which achieves top performance among pure vision models and narrows the gap to the proprietary VLM. We hope our benchmark and findings will spur further advancements in developing vision models capable of robust, cognitively inspired reasoning in challenging, sparse environments. Our dataset and source code can be found at https://ai4ce.github.io/CoVISION.
- Abstract(参考訳): 人間は、複数の画像で同時に見える3D領域を認識できる素晴らしい能力を発揮します。
この能力は3次元視覚、ロボット知覚の基礎であり、低レベルの特徴マッチングだけでなく、高レベルの空間推論や認知統合にも依存している。
しかし、現在のビジョンモデルがこの人間レベルの習熟度を再現できるかどうかは不明だ。
本研究では,1000以上のスパースビュー屋内シナリオを対象に,人間にインスパイアされたコビジュアビリティ推論を評価するためのCo-VisiONベンチマークを提案する。
この結果から,コビジュアビリティは低レベルな特徴マッチングタスクとして扱われることが多いが,スパース条件下での既存の視覚モデルでは依然として困難であることがわかった。
特に、プロプライエタリな視覚言語モデルは、すべての視覚のみのベースラインを超えるが、すべてのモデルは人間のパフォーマンスにかなり劣っている。
このギャップは、現在のアーキテクチャの限界を強調し、空間的および意味的な情報を人間的な方法で統合するモデルの必要性を動機付けている。
人間の視覚認知にインスパイアされた新しい多視点ベースラインであるCovisを提案する。これは純粋な視覚モデルの中で最高の性能を達成し、プロプライエタリなVLMとのギャップを狭める。
当社のベンチマークと調査結果は、困難でスパースな環境において、堅牢で認知にインスパイアされた推論が可能なビジョンモデルの開発において、さらなる進歩を後押しすることを期待しています。
データセットとソースコードはhttps://ai4ce.github.io/CoVISION.comで確認できます。
関連論文リスト
- ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images [1.8668361563848481]
TDBenchは、トップダウン画像理解におけるVLM(Vision-Language Models)の包括的なベンチマークである。
画像理解の10つの評価次元にまたがる視覚的質問応答対で構成されている。
現実のシナリオでは一般的に発生するが、探索は少ない4つのケーススタディを実行します。
論文 参考訳(メタデータ) (2025-04-01T19:01:13Z) - CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models [12.150101028377565]
視覚言語モデル(VLM)の連続空間知覚能力を評価するためのベンチマークであるCoSpaceを提案する。
結果から,プロプライエタリなモデルを含むほとんどの評価モデルに対して,連続空間知覚能力に落とし穴があることが判明した。
論文 参考訳(メタデータ) (2025-03-18T11:31:58Z) - FeatSharp: Your Vision Model Features, Sharper [64.25786703202414]
低解像度ビジョンエンコーダの特徴マップを協調的に安価にアップサンプリングする新しい手法を提案する。
本稿では,この手法がコア認識タスクおよび集約モデル(RADIO)トレーニングにおいて有効であることを示す。
論文 参考訳(メタデータ) (2025-02-22T00:54:49Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。