Fugu-MT 論文翻訳(概要): TopViewRS: Vision-Language Models as Top-View Spatial Reasoners

論文の概要: TopViewRS: Vision-Language Models as Top-View Spatial Reasoners

arxiv url: http://arxiv.org/abs/2406.02537v1
Date: Tue, 4 Jun 2024 17:55:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 14:50:37.031640
Title: TopViewRS: Vision-Language Models as Top-View Spatial Reasoners
Title（参考訳）: TopViewRS:トップビュー空間共振器としての視覚言語モデル
Authors: Chengzu Li, Caiqi Zhang, Han Zhou, Nigel Collier, Anna Korhonen, Ivan Vulić,
Abstract要約: トップビューの視点は、人間が様々な種類の地図を読み、推論する典型的な方法である。 11,384の質問からなるTopViewRSデータセットを視覚入力として,現実的あるいは意味的なトップビューマップで紹介する。次に、異なるレベルの複雑さを持つ4つの知覚と推論タスクにわたるVLMの研究と評価に使用します。
参考スコア（独自算出の注目度）: 38.406430696146714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Top-view perspective denotes a typical way in which humans read and reason over different types of maps, and it is vital for localization and navigation of humans as well as of `non-human' agents, such as the ones backed by large Vision-Language Models (VLMs). Nonetheless, spatial reasoning capabilities of modern VLMs remain unattested and underexplored. In this work, we thus study their capability to understand and reason over spatial relations from the top view. The focus on top view also enables controlled evaluations at different granularity of spatial reasoning; we clearly disentangle different abilities (e.g., recognizing particular objects versus understanding their relative positions). We introduce the TopViewRS (Top-View Reasoning in Space) dataset, consisting of 11,384 multiple-choice questions with either realistic or semantic top-view map as visual input. We then use it to study and evaluate VLMs across 4 perception and reasoning tasks with different levels of complexity. Evaluation of 10 representative open- and closed-source VLMs reveals the gap of more than 50% compared to average human performance, and it is even lower than the random baseline in some cases. Although additional experiments show that Chain-of-Thought reasoning can boost model capabilities by 5.82% on average, the overall performance of VLMs remains limited. Our findings underscore the critical need for enhanced model capability in top-view spatial reasoning and set a foundation for further research towards human-level proficiency of VLMs in real-world multimodal tasks.
Abstract（参考訳）: トップビューの視点は、人間が様々な種類の地図を読み取り、推論する典型的な方法を表しており、大きなビジョン・ランゲージ・モデル(VLM)によって支えられているような「非人間」エージェントと同様に、人間の位置やナビゲーションに不可欠である。それでも、現代のVLMの空間的推論能力は未証明であり、未調査のままである。そこで本研究では,トップビューから空間的関係を理解・理解する能力について考察する。トップビューの焦点はまた、空間的推論の粒度の異なる制御された評価を可能にし、異なる能力(例えば、特定の物体を認識するか、相対的な位置を理解するか)を明確に歪めている。 11,384の質問からなるTopViewRS(Top-View Reasoning in Space)データセットを視覚入力として,現実的あるいは意味的なトップビューマップを用いて導入する。次に、異なるレベルの複雑さを持つ4つの知覚と推論タスクにわたるVLMの研究と評価に使用します。 10個のオープンソースおよびクローズドソースVLMの評価では、平均的な人的性能と比較して50%以上のギャップが見られ、場合によってはランダムなベースラインよりも低くなる。さらなる実験により、チェーン・オブ・ソート推論はモデル能力を平均5.82%向上させることが示されているが、VLMの全体的な性能は制限されている。本研究は,実世界のマルチモーダルタスクにおけるVLMの人間レベルの能力向上に向けた基礎を築き,トップビュー空間推論におけるモデル機能強化の必要性を浮き彫りにした。

関連論文リスト

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models [21.311740507694143]
認知心理学に基づく空間的推論のベンチマークであるOmniSpatialを紹介する。インターネットデータクローリングと手作業による注意深いアノテーションにより,1.5K以上の質問応答ペアを構築した。
論文参考訳（メタデータ） (2025-06-03T17:58:29Z)
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-27T17:59:26Z)
Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [6.569837864665502]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文参考訳（メタデータ） (2025-05-27T05:17:41Z)
SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data [7.142118464319378]
視覚言語モデル(VLM)は、画像キャプションから視覚質問応答(VQA)までのタスクでうまく機能する。空間関係は一般的に広く使われているVLデータセットではまれであり、よく表現されているものはほとんどない。我々は,超詳細な画像記述から生成された空間的推論に着目した合成VQAデータセットを構築した。
論文参考訳（メタデータ） (2025-04-29T11:18:38Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文参考訳（メタデータ） (2025-03-21T17:51:14Z)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。 GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。本課題における最先端の視覚言語モデル(VLM)の性能について検討する。本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文参考訳（メタデータ） (2024-09-15T16:45:42Z)
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。 VLMの未調査能力の1つは、視覚空間計画である。本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-02T00:24:01Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。我々は、競合する言語と視覚言語モデルを総合的に評価する。文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文参考訳（メタデータ） (2024-06-21T03:53:37Z)
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文参考訳（メタデータ） (2024-06-19T06:15:26Z)
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文参考訳（メタデータ） (2024-06-16T20:53:25Z)
ReMI: A Dataset for Reasoning with Multiple Images [41.954830849939526]
ReMIは、大規模言語モデルが複数の画像で推論できる能力を評価するために設計されたデータセットである。このデータセットは、数学、物理学、論理学、コード、表/チャート理解、空間的および時間的推論といった様々な推論領域にまたがる様々なタスクを含んでいる。我々は,最先端のLDMのベンチマークを行い,その性能と人間レベルの習熟度の間に大きなギャップがあることを発見した。
論文参考訳（メタデータ） (2024-06-13T14:37:04Z)
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文参考訳（メタデータ） (2024-01-22T18:01:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。