Fugu-MT 論文翻訳(概要): Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes

論文の概要: Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes

arxiv url: http://arxiv.org/abs/2506.16805v2
Date: Sun, 06 Jul 2025 07:10:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.417661
Title: Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes
Title（参考訳）: Co-VisiON: 屋内シーンのスパースイメージセットによるコバイザビリティの考察
Authors: Chao Chen, Nobel Dang, Juexiao Zhang, Wenkai Sun, Pengfei Zheng, Xuhang He, Yimeng Ye, Jiasheng Zhang, Taarun Srinivas, Chen Feng,
Abstract要約: 我々は,1000以上のスパースビュー屋内シナリオにおいて,人間にインスパイアされたコビジュアビリティ推論を評価するために設計されたCo-VisiONベンチマークを紹介した。この結果から,コビジュアビリティは低レベルな特徴マッチングタスクとして扱われることが多いが,スパース条件下での既存の視覚モデルでは依然として困難であることがわかった。本稿では,純視覚モデルにおける最高性能を達成し,プロプライエタリなVLMとのギャップを狭める,新しい多視点ベースラインであるCovisを提案する。
参考スコア（独自算出の注目度）: 8.941800684473202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans exhibit a remarkable ability to recognize co-visibility-the 3D regions simultaneously visible in multiple images-even when these images are sparsely distributed across a complex scene. This capability is foundational in 3D vision, robotic perception, and relies not only on low-level feature matching but also on high-level spatial reasoning and cognitive integration. Yet, it remains unclear whether current vision models can replicate this human-level proficiency. In this work, we introduce the Co-VisiON benchmark, designed to evaluate human-inspired co-visibility reasoning across over 1,000 sparse-view indoor scenarios. Our results show that while co-visibility is often approached as a low-level feature-matching task, it remains challenging for existing vision models under sparse conditions. Notably, a proprietary vision-language model surpasses all vision-only baselines, but all models fall significantly short of human performance. This gap underscores the limitations of current architectures and motivates the need for models that integrate spatial and semantic information in a human-like manner. Inspired by human visual cognition, we propose a novel multi-view baseline, Covis, which achieves top performance among pure vision models and narrows the gap to the proprietary VLM. We hope our benchmark and findings will spur further advancements in developing vision models capable of robust, cognitively inspired reasoning in challenging, sparse environments. Our dataset and source code can be found at https://ai4ce.github.io/CoVISION.
Abstract（参考訳）: 人間は、複数の画像で同時に見える3D領域を認識できる素晴らしい能力を発揮します。この能力は3次元視覚、ロボット知覚の基礎であり、低レベルの特徴マッチングだけでなく、高レベルの空間推論や認知統合にも依存している。しかし、現在のビジョンモデルがこの人間レベルの習熟度を再現できるかどうかは不明だ。本研究では,1000以上のスパースビュー屋内シナリオを対象に,人間にインスパイアされたコビジュアビリティ推論を評価するためのCo-VisiONベンチマークを提案する。この結果から,コビジュアビリティは低レベルな特徴マッチングタスクとして扱われることが多いが,スパース条件下での既存の視覚モデルでは依然として困難であることがわかった。特に、プロプライエタリな視覚言語モデルは、すべての視覚のみのベースラインを超えるが、すべてのモデルは人間のパフォーマンスにかなり劣っている。このギャップは、現在のアーキテクチャの限界を強調し、空間的および意味的な情報を人間的な方法で統合するモデルの必要性を動機付けている。人間の視覚認知にインスパイアされた新しい多視点ベースラインであるCovisを提案する。これは純粋な視覚モデルの中で最高の性能を達成し、プロプライエタリなVLMとのギャップを狭める。当社のベンチマークと調査結果は、困難でスパースな環境において、堅牢で認知にインスパイアされた推論が可能なビジョンモデルの開発において、さらなる進歩を後押しすることを期待しています。データセットとソースコードはhttps://ai4ce.github.io/CoVISION.comで確認できます。

関連論文リスト

VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。非局所的な視覚的推論のための視覚言語モデルの能力を評価する。その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文参考訳（メタデータ） (2025-07-04T23:15:52Z)
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-27T17:59:26Z)
TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images [1.8668361563848481]
TDBenchは、トップダウン画像理解におけるVLM(Vision-Language Models)の包括的なベンチマークである。画像理解の10つの評価次元にまたがる視覚的質問応答対で構成されている。現実のシナリオでは一般的に発生するが、探索は少ない4つのケーススタディを実行します。
論文参考訳（メタデータ） (2025-04-01T19:01:13Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models [12.150101028377565]
視覚言語モデル(VLM)の連続空間知覚能力を評価するためのベンチマークであるCoSpaceを提案する。結果から,プロプライエタリなモデルを含むほとんどの評価モデルに対して,連続空間知覚能力に落とし穴があることが判明した。
論文参考訳（メタデータ） (2025-03-18T11:31:58Z)
FeatSharp: Your Vision Model Features, Sharper [64.25786703202414]
低解像度ビジョンエンコーダの特徴マップを協調的に安価にアップサンプリングする新しい手法を提案する。本稿では,この手法がコア認識タスクおよび集約モデル(RADIO)トレーニングにおいて有効であることを示す。
論文参考訳（メタデータ） (2025-02-22T00:54:49Z)
DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文参考訳（メタデータ） (2024-12-17T09:10:55Z)
Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文参考訳（メタデータ） (2024-08-13T08:26:32Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-10-11T14:06:04Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。 Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文参考訳（メタデータ） (2022-07-22T17:55:39Z)
Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文参考訳（メタデータ） (2022-04-04T03:09:20Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)
Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。 ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文参考訳（メタデータ） (2020-12-31T18:55:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。