論文の概要: CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.14161v1
- Date: Tue, 18 Mar 2025 11:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:49.803542
- Title: CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models
- Title(参考訳): CoSpace:ビジョンランゲージモデルのための継続的空間知覚能力のベンチマーク
- Authors: Yiqi Zhu, Ziyue Wang, Can Zhang, Peng Li, Yang Liu,
- Abstract要約: 視覚言語モデル(VLM)の連続空間知覚能力を評価するためのベンチマークであるCoSpaceを提案する。
結果から,プロプライエタリなモデルを含むほとんどの評価モデルに対して,連続空間知覚能力に落とし穴があることが判明した。
- 参考スコア(独自算出の注目度): 12.150101028377565
- License:
- Abstract: Vision-Language Models (VLMs) have recently witnessed significant progress in visual comprehension. As the permitting length of image context grows, VLMs can now comprehend a broader range of views and spaces. Current benchmarks provide insightful analysis of VLMs in tasks involving complex visual instructions following, multi-image understanding and spatial reasoning. However, they usually focus on spatially irrelevant images or discrete images captured from varied viewpoints. The compositional characteristic of images captured from a static viewpoint remains underestimated. We term this characteristic as Continuous Space Perception. When observing a scene from a static viewpoint while shifting orientations, it produces a series of spatially continuous images, enabling the reconstruction of the entire space. In this paper, we present CoSpace, a multi-image visual understanding benchmark designed to assess the Continuous Space perception ability for VLMs. CoSpace contains 2,918 images and 1,626 question-answer pairs, covering seven types of tasks. We conduct evaluation across 19 proprietary and open-source VLMs. Results reveal that there exist pitfalls on the continuous space perception ability for most of the evaluated models, including proprietary ones. Interestingly, we find that the main discrepancy between open-source and proprietary models lies not in accuracy but in the consistency of responses. We believe that enhancing the ability of continuous space perception is essential for VLMs to perform effectively in real-world tasks and encourage further research to advance this capability.
- Abstract(参考訳): VLM(Vision-Language Models)は近年、視覚理解の大幅な進歩を目撃している。
画像コンテキストの許容長が大きくなるにつれて、VLMはより広い範囲のビューや空間を理解できるようになった。
現在のベンチマークでは、複雑な視覚指示、マルチイメージ理解、空間的推論を含むタスクにおけるVLMの洞察に富んだ分析が提供されている。
しかし、それらは通常、様々な視点から捉えた空間的に無関係な画像や離散的な画像に焦点を当てる。
静的視点から撮影した画像の合成特性は、まだ過小評価されている。
これを連続空間知覚と呼ぶ。
向きをシフトしながら静的な視点からシーンを観察すると、空間的に連続した一連の画像が生成され、空間全体の再構築を可能にする。
本稿では,VLMの連続空間認識能力を評価するためのマルチイメージ視覚理解ベンチマークであるCoSpaceを提案する。
CoSpaceには2,918のイメージと1,626の質問応答ペアがあり、7種類のタスクをカバーしている。
我々は、19のプロプライエタリおよびオープンソースVLMに対して評価を行う。
結果から,プロプライエタリなモデルを含むほとんどの評価モデルに対して,連続空間知覚能力に落とし穴があることが判明した。
興味深いことに、オープンソースとプロプライエタリなモデルの主な相違は、正確さではなく、応答の一貫性にある。
連続空間認識能力の向上は, VLMが現実のタスクにおいて効果的に実行し, さらなる研究を奨励する上で不可欠であると考えている。
関連論文リスト
- Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces [34.809309396448654]
5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。
MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
論文 参考訳(メタデータ) (2024-12-18T18:59:54Z) - Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - TopViewRS: Vision-Language Models as Top-View Spatial Reasoners [38.406430696146714]
トップビューの視点は、人間が様々な種類の地図を読み、推論する典型的な方法である。
11,384の質問からなるTopViewRSデータセットを視覚入力として,現実的あるいは意味的なトップビューマップで紹介する。
次に、異なるレベルの複雑さを持つ4つの知覚と推論タスクにわたるVLMの研究と評価に使用します。
論文 参考訳(メタデータ) (2024-06-04T17:55:43Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。