論文の概要: RSGPT: A Remote Sensing Vision Language Model and Benchmark
- arxiv url: http://arxiv.org/abs/2307.15266v1
- Date: Fri, 28 Jul 2023 02:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 13:51:03.345449
- Title: RSGPT: A Remote Sensing Vision Language Model and Benchmark
- Title(参考訳): RSGPT:リモートセンシングビジョン言語モデルとベンチマーク
- Authors: Yuan Hu, Jianlong Yuan, Congcong Wen, Xiaonan Lu, Xiang Li
- Abstract要約: 高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。
このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。
また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
- 参考スコア(独自算出の注目度): 7.279747655485913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of large-scale large language models, with GPT-4 as a prominent
example, has significantly propelled the rapid advancement of artificial
general intelligence and sparked the revolution of Artificial Intelligence 2.0.
In the realm of remote sensing (RS), there is a growing interest in developing
large vision language models (VLMs) specifically tailored for data analysis in
this domain. However, current research predominantly revolves around visual
recognition tasks, lacking comprehensive, large-scale image-text datasets that
are aligned and suitable for training large VLMs, which poses significant
challenges to effectively training such models for RS applications. In computer
vision, recent research has demonstrated that fine-tuning large vision language
models on small-scale, high-quality datasets can yield impressive performance
in visual and language understanding. These results are comparable to
state-of-the-art VLMs trained from scratch on massive amounts of data, such as
GPT-4. Inspired by this captivating idea, in this work, we build a high-quality
Remote Sensing Image Captioning dataset (RSICap) that facilitates the
development of large VLMs in the RS field. Unlike previous RS datasets that
either employ model-generated captions or short descriptions, RSICap comprises
2,585 human-annotated captions with rich and high-quality information. This
dataset offers detailed descriptions for each image, encompassing scene
descriptions (e.g., residential area, airport, or farmland) as well as object
information (e.g., color, shape, quantity, absolute position, etc). To
facilitate the evaluation of VLMs in the field of RS, we also provide a
benchmark evaluation dataset called RSIEval. This dataset consists of
human-annotated captions and visual question-answer pairs, allowing for a
comprehensive assessment of VLMs in the context of RS.
- Abstract(参考訳): GPT-4が顕著な例である大規模な大規模言語モデルの出現は、人工知能の急速な進歩を促し、人工知能 2.0の革命を引き起こした。
リモートセンシング(RS)の分野では、この領域におけるデータ分析に特化して、大規模視覚言語モデル(VLM)の開発への関心が高まっている。
しかしながら、現在の研究は主に視覚認識タスクを中心に展開されており、大規模なVLMのトレーニングに適した、包括的な大規模な画像テキストデータセットが欠如しているため、RSアプリケーションのそのようなモデルを効果的にトレーニングする上で大きな課題が生じる。
コンピュータビジョンにおいて、最近の研究は、小規模で高品質なデータセット上で大きなビジョン言語モデルを微調整することは、視覚と言語理解において印象的なパフォーマンスをもたらすことを実証している。
これらの結果は、gpt-4のような大量のデータでスクラッチからトレーニングされた最先端のvlmに匹敵する。
この魅惑的なアイデアに触発されて、我々はRSフィールドにおける大きなVLMの開発を容易にする高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築した。
モデル生成キャプションまたは短い記述を使用する以前のRSデータセットとは異なり、RSICapはリッチで高品質な情報を持つ2,585の人称注釈キャプションで構成されている。
このデータセットは、シーン記述(住宅地、空港、農地など)やオブジェクト情報(色、形、量、絶対位置など)を含む、各画像の詳細な記述を提供する。
RSの分野におけるVLMの評価を容易にするため,RSIEvalと呼ばれるベンチマーク評価データセットも提供する。
このデータセットは、人間の注釈付きキャプションと視覚的質問応答ペアで構成され、RSの文脈におけるVLMの包括的な評価を可能にする。
関連論文リスト
- LHRS-Bot-Nova: Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation [21.91073335335992]
リモートセンシング(RS)画像の理解に特化したMLLMであるLHRS-Bot-Novaを紹介する。
LHRS-Bot-Novaは拡張ビジョンエンコーダと新しいブリッジ層を備えており、効率的なビジュアル圧縮と言語ビジョンアライメントを実現している。
RS画像理解タスクにおけるLHRS-Bot-Novaの優れた性能を示す大規模な実験を行った。
論文 参考訳(メタデータ) (2024-11-14T09:23:40Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [3.178739428363249]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。
本稿では,100万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文 参考訳(メタデータ) (2024-08-27T02:45:26Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large
Vision-Language Model for Remote Sensing [26.71560933421903]
我々は、DVLM(Domain Pre-trained Vision-Language Model)を含む新しいフレームワークを提案する。
リモートセンシング(RS)分野における画像とテキストのペア化データセットであるRS5Mについて述べる。
論文 参考訳(メタデータ) (2023-06-20T05:30:59Z) - RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing
Data [14.742224345061487]
リモートセンシングデータ(RSVG)の視覚的グラウンド化の課題について紹介する。
RSVGは、自然言語のガイダンスを用いて、参照対象をリモートセンシング(RS)画像にローカライズすることを目的としている。
本研究では,RSVGの大規模ベンチマークデータセットを構築し,RSVGタスクのディープラーニングモデルについて検討する。
論文 参考訳(メタデータ) (2022-10-23T07:08:22Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。