論文の概要: TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images
- arxiv url: http://arxiv.org/abs/2504.03748v1
- Date: Tue, 01 Apr 2025 19:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 08:59:53.73646
- Title: TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images
- Title(参考訳): TDBench:トップダウンイメージ理解のためのビジョンランゲージモデルのベンチマーク
- Authors: Kaiyuan Hou, Minghui Zhao, Lilin Xu, Yuang Fan, Xiaofan Jiang,
- Abstract要約: TDBenchは、トップダウン画像理解におけるVLM(Vision-Language Models)の包括的なベンチマークである。
画像理解の10つの評価次元にまたがる視覚的質問応答対で構成されている。
現実のシナリオでは一般的に発生するが、探索は少ない4つのケーススタディを実行します。
- 参考スコア(独自算出の注目度): 1.8668361563848481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid emergence of Vision-Language Models (VLMs) has significantly advanced multimodal understanding, enabling applications in scene comprehension and visual reasoning. While these models have been primarily evaluated and developed for front-view image understanding, their capabilities in interpreting top-down images have received limited attention, partly due to the scarcity of diverse top-down datasets and the challenges in collecting such data. In contrast, top-down vision provides explicit spatial overviews and improved contextual understanding of scenes, making it particularly valuable for tasks like autonomous navigation, aerial imaging, and spatial planning. In this work, we address this gap by introducing TDBench, a comprehensive benchmark for VLMs in top-down image understanding. TDBench is constructed from public top-down view datasets and high-quality simulated images, including diverse real-world and synthetic scenarios. TDBench consists of visual question-answer pairs across ten evaluation dimensions of image understanding. Moreover, we conduct four case studies that commonly happen in real-world scenarios but are less explored. By revealing the strengths and limitations of existing VLM through evaluation results, we hope TDBench to provide insights for motivating future research. Project homepage: https://github.com/Columbia-ICSL/TDBench
- Abstract(参考訳): VLM(Vision-Language Models)の急速な出現は、シーン理解や視覚的推論における応用を可能にする、非常に高度なマルチモーダル理解をもたらしている。
これらのモデルは、主にフロントビューの画像理解のために評価され、開発されてきたが、トップダウン画像の解釈能力は、多種多様なトップダウンデータセットの不足や、そのようなデータ収集の難しさなど、限定的な注目を集めている。
対照的に、トップダウン視覚は、空間的概要を明確にし、シーンの文脈的理解を改善し、自律的なナビゲーション、空中イメージング、空間計画といったタスクに特に有用である。
本稿では,トップダウン画像理解におけるVLMの総合的なベンチマークであるTDBenchを導入することで,このギャップに対処する。
TDBenchは、さまざまな現実世界や合成シナリオを含む、パブリックなトップダウンビューデータセットと高品質なシミュレートされたイメージから構築されている。
TDBenchは、画像理解の10つの評価次元にまたがる視覚的質問応答対で構成されている。
さらに,実世界のシナリオで一般的に発生する4つのケーススタディも実施するが,調査は少ない。
評価結果から既存のVLMの強みと限界を明らかにすることで、今後の研究を動機づけるための洞察をTDBenchに提供できることを期待する。
プロジェクトホームページ:https://github.com/Columbia-ICSL/TDBench
関連論文リスト
- Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文 参考訳(メタデータ) (2025-04-22T17:38:01Z) - NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.184459657989914]
シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。
また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。
評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文 参考訳(メタデータ) (2025-03-17T03:12:39Z) - Are Large Vision Language Models Good Game Players? [25.49713745405194]
大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方について理解と推論において顕著な能力を示した。
既存のLVLMの評価手法は、主にVisual Question Answeringのようなベンチマークに基づいており、LVLMの能力の全範囲を捉えていないことが多い。
構造化環境におけるLVLMの認知・推論スキルを総合的に評価するためのゲームベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T07:29:03Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - What's in the Image? A Deep-Dive into the Vision of Vision Language Models [20.669971132114195]
VLM(Vision-Language Models)は、最近、複雑な視覚コンテンツを解釈する際、顕著な能力を示した。
本稿では,各層にまたがるアテンションモジュールに着目し,徹底的な経験分析を行う。
これらのモデルが視覚データをどのように処理するかについて、いくつかの重要な洞察を明らかにします。
論文 参考訳(メタデータ) (2024-11-26T14:59:06Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。