論文の概要: Good at captioning, bad at counting: Benchmarking GPT-4V on Earth
observation data
- arxiv url: http://arxiv.org/abs/2401.17600v1
- Date: Wed, 31 Jan 2024 04:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:40:14.279900
- Title: Good at captioning, bad at counting: Benchmarking GPT-4V on Earth
observation data
- Title(参考訳): キャプションが良い、カウントが悪い:地球観測データ上のGPT-4Vのベンチマーク
- Authors: Chenhui Zhang, Sherrie Wang
- Abstract要約: 本研究では,地球観測データに有用なツールとして,VLM(Large Vision-Language Models)の進展を評価するためのベンチマークを提案する。
私たちのベンチマークには、都市モニタリング、災害救助、土地利用、保全といったシナリオが含まれています。
私たちのベンチマークはhttps://vleo.danielz.ch/とHugging Face at https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466555489cce0d70で公開されます。
- 参考スコア(独自算出の注目度): 7.797577465015058
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Vision-Language Models (VLMs) have demonstrated impressive performance
on complex tasks involving visual input with natural language instructions.
However, it remains unclear to what extent capabilities on natural images
transfer to Earth observation (EO) data, which are predominantly satellite and
aerial images less common in VLM training data. In this work, we propose a
comprehensive benchmark to gauge the progress of VLMs toward being useful tools
for EO data by assessing their abilities on scene understanding, localization
and counting, and change detection tasks. Motivated by real-world applications,
our benchmark includes scenarios like urban monitoring, disaster relief, land
use, and conservation. We discover that, although state-of-the-art VLMs like
GPT-4V possess extensive world knowledge that leads to strong performance on
open-ended tasks like location understanding and image captioning, their poor
spatial reasoning limits usefulness on object localization and counting tasks.
Our benchmark will be made publicly available at https://vleo.danielz.ch/ and
on Hugging Face at
https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466555489cce0d70
for easy model evaluation.
- Abstract(参考訳): VLM(Large Vision-Language Models)は、自然言語による視覚入力を含む複雑なタスクにおいて、印象的なパフォーマンスを示す。
しかし、地球観測(EO)データへの自然画像の転送能力は、主に衛星画像と空中画像がVLMのトレーニングデータであまり一般的でないため、まだ不明である。
本研究では,シーン理解,局所化,カウント,変化検出タスクの能力を評価することで,EOデータに有用なツールとなるためのVLMの進歩を評価するための総合的なベンチマークを提案する。
私たちのベンチマークには、都市モニタリング、災害救助、土地利用、保全といったシナリオが含まれています。
GPT-4Vのような最先端のVLMは、位置理解や画像キャプションといったオープンなタスクに強いパフォーマンスをもたらす広範な世界知識を持っているが、それらの空間的推論の貧弱さは、オブジェクトのローカライゼーションやカウントタスクに有用性を制限する。
私たちのベンチマークは、https://vleo.danielz.ch/とHugging Face at https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466545489cce0d70で公開されます。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。
このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。
また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文 参考訳(メタデータ) (2023-07-28T02:23:35Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。
視覚的」身体的知識を習得する能力を評価する。
以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。