Fugu-MT 論文翻訳(概要): Good at captioning, bad at counting: Benchmarking GPT-4V on Earth observation data

論文の概要: Good at captioning, bad at counting: Benchmarking GPT-4V on Earth observation data

arxiv url: http://arxiv.org/abs/2401.17600v1
Date: Wed, 31 Jan 2024 04:57:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 15:40:14.279900
Title: Good at captioning, bad at counting: Benchmarking GPT-4V on Earth observation data
Title（参考訳）: キャプションが良い、カウントが悪い:地球観測データ上のGPT-4Vのベンチマーク
Authors: Chenhui Zhang, Sherrie Wang
Abstract要約: 本研究では,地球観測データに有用なツールとして,VLM(Large Vision-Language Models)の進展を評価するためのベンチマークを提案する。私たちのベンチマークには、都市モニタリング、災害救助、土地利用、保全といったシナリオが含まれています。私たちのベンチマークはhttps://vleo.danielz.ch/とHugging Face at https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466555489cce0d70で公開されます。
参考スコア（独自算出の注目度）: 7.797577465015058
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Vision-Language Models (VLMs) have demonstrated impressive performance on complex tasks involving visual input with natural language instructions. However, it remains unclear to what extent capabilities on natural images transfer to Earth observation (EO) data, which are predominantly satellite and aerial images less common in VLM training data. In this work, we propose a comprehensive benchmark to gauge the progress of VLMs toward being useful tools for EO data by assessing their abilities on scene understanding, localization and counting, and change detection tasks. Motivated by real-world applications, our benchmark includes scenarios like urban monitoring, disaster relief, land use, and conservation. We discover that, although state-of-the-art VLMs like GPT-4V possess extensive world knowledge that leads to strong performance on open-ended tasks like location understanding and image captioning, their poor spatial reasoning limits usefulness on object localization and counting tasks. Our benchmark will be made publicly available at https://vleo.danielz.ch/ and on Hugging Face at https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466555489cce0d70 for easy model evaluation.
Abstract（参考訳）: VLM(Large Vision-Language Models)は、自然言語による視覚入力を含む複雑なタスクにおいて、印象的なパフォーマンスを示す。しかし、地球観測(EO)データへの自然画像の転送能力は、主に衛星画像と空中画像がVLMのトレーニングデータであまり一般的でないため、まだ不明である。本研究では,シーン理解,局所化,カウント,変化検出タスクの能力を評価することで,EOデータに有用なツールとなるためのVLMの進歩を評価するための総合的なベンチマークを提案する。私たちのベンチマークには、都市モニタリング、災害救助、土地利用、保全といったシナリオが含まれています。 GPT-4Vのような最先端のVLMは、位置理解や画像キャプションといったオープンなタスクに強いパフォーマンスをもたらす広範な世界知識を持っているが、それらの空間的推論の貧弱さは、オブジェクトのローカライゼーションやカウントタスクに有用性を制限する。私たちのベンチマークは、https://vleo.danielz.ch/とHugging Face at https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466545489cce0d70で公開されます。

関連論文リスト

LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks [22.011855291417856]
VLM(Vision-Language Models)が空間的関係を認識し空間的動きを知覚する方法は、まだ解明されていない。本研究では,空間評価パイプラインを導入し,対応するベンチマークを構築する。我々は、複数の最先端VLMの実験を行い、改善の余地があることを観察する。
論文参考訳（メタデータ） (2025-07-27T08:31:24Z)
SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data [7.142118464319378]
視覚言語モデル(VLM)は、画像キャプションから視覚質問応答(VQA)までのタスクでうまく機能する。空間関係は一般的に広く使われているVLデータセットではまれであり、よく表現されているものはほとんどない。我々は,超詳細な画像記述から生成された空間的推論に着目した合成VQAデータセットを構築した。
論文参考訳（メタデータ） (2025-04-29T11:18:38Z)
Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文参考訳（メタデータ） (2025-04-22T17:38:01Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文参考訳（メタデータ） (2024-10-03T17:49:28Z)
Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文参考訳（メタデータ） (2024-07-18T20:29:49Z)
SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-06-03T17:59:06Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文参考訳（メタデータ） (2023-07-28T02:23:35Z)
VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。 VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文参考訳（メタデータ） (2023-07-12T11:08:24Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。視覚的」身体的知識を習得する能力を評価する。以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文参考訳（メタデータ） (2022-09-15T02:06:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。