Fugu-MT 論文翻訳(概要): RSGPT: A Remote Sensing Vision Language Model and Benchmark

論文の概要: RSGPT: A Remote Sensing Vision Language Model and Benchmark

arxiv url: http://arxiv.org/abs/2307.15266v1
Date: Fri, 28 Jul 2023 02:23:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 13:51:03.345449
Title: RSGPT: A Remote Sensing Vision Language Model and Benchmark
Title（参考訳）: RSGPT:リモートセンシングビジョン言語モデルとベンチマーク
Authors: Yuan Hu, Jianlong Yuan, Congcong Wen, Xiaonan Lu, Xiang Li
Abstract要約: 高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
参考スコア（独自算出の注目度）: 7.279747655485913
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of large-scale large language models, with GPT-4 as a prominent example, has significantly propelled the rapid advancement of artificial general intelligence and sparked the revolution of Artificial Intelligence 2.0. In the realm of remote sensing (RS), there is a growing interest in developing large vision language models (VLMs) specifically tailored for data analysis in this domain. However, current research predominantly revolves around visual recognition tasks, lacking comprehensive, large-scale image-text datasets that are aligned and suitable for training large VLMs, which poses significant challenges to effectively training such models for RS applications. In computer vision, recent research has demonstrated that fine-tuning large vision language models on small-scale, high-quality datasets can yield impressive performance in visual and language understanding. These results are comparable to state-of-the-art VLMs trained from scratch on massive amounts of data, such as GPT-4. Inspired by this captivating idea, in this work, we build a high-quality Remote Sensing Image Captioning dataset (RSICap) that facilitates the development of large VLMs in the RS field. Unlike previous RS datasets that either employ model-generated captions or short descriptions, RSICap comprises 2,585 human-annotated captions with rich and high-quality information. This dataset offers detailed descriptions for each image, encompassing scene descriptions (e.g., residential area, airport, or farmland) as well as object information (e.g., color, shape, quantity, absolute position, etc). To facilitate the evaluation of VLMs in the field of RS, we also provide a benchmark evaluation dataset called RSIEval. This dataset consists of human-annotated captions and visual question-answer pairs, allowing for a comprehensive assessment of VLMs in the context of RS.
Abstract（参考訳）: GPT-4が顕著な例である大規模な大規模言語モデルの出現は、人工知能の急速な進歩を促し、人工知能 2.0の革命を引き起こした。リモートセンシング(RS)の分野では、この領域におけるデータ分析に特化して、大規模視覚言語モデル(VLM)の開発への関心が高まっている。しかしながら、現在の研究は主に視覚認識タスクを中心に展開されており、大規模なVLMのトレーニングに適した、包括的な大規模な画像テキストデータセットが欠如しているため、RSアプリケーションのそのようなモデルを効果的にトレーニングする上で大きな課題が生じる。コンピュータビジョンにおいて、最近の研究は、小規模で高品質なデータセット上で大きなビジョン言語モデルを微調整することは、視覚と言語理解において印象的なパフォーマンスをもたらすことを実証している。これらの結果は、gpt-4のような大量のデータでスクラッチからトレーニングされた最先端のvlmに匹敵する。この魅惑的なアイデアに触発されて、我々はRSフィールドにおける大きなVLMの開発を容易にする高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築した。モデル生成キャプションまたは短い記述を使用する以前のRSデータセットとは異なり、RSICapはリッチで高品質な情報を持つ2,585の人称注釈キャプションで構成されている。このデータセットは、シーン記述(住宅地、空港、農地など)やオブジェクト情報(色、形、量、絶対位置など)を含む、各画像の詳細な記述を提供する。 RSの分野におけるVLMの評価を容易にするため,RSIEvalと呼ばれるベンチマーク評価データセットも提供する。このデータセットは、人間の注釈付きキャプションと視覚的質問応答ペアで構成され、RSの文脈におけるVLMの包括的な評価を可能にする。

関連論文リスト

Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
Quality-Driven Curation of Remote Sensing Vision-Language Data via Learned Scoring Models [9.238739743596236]
自動品質評価のための大規模RS視覚言語嗜好データに基づいて学習した新しいスコアモデルを提案する。実験結果から, スコアモデルでランク付けされたデータのうち, 上位30%の高精度なCLIPや高度なVLMが, より優れた解釈精度を実現することが示された。
論文参考訳（メタデータ） (2025-03-02T05:44:56Z)
GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis [17.83602731408318]
本稿では,マルチスケール,マルチセンサ,マルチモーダルリモートセンシング(RS)画像解析のための新しいデータセットであるGAIAを紹介する。 GAIAは205,150個の厳密にキュレートされたRS画像テキストペアで構成され、異なる空間解像度に関連付けられたRSの多種多様さを表す。 GAIAは、RS画像分類、クロスモーダル検索、画像キャプションタスクの性能を大幅に改善する。
論文参考訳（メタデータ） (2025-02-13T18:52:14Z)
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation [12.32553804641971]
視覚言語モデル(VLM)は自然言語処理や画像理解において顕著な進歩を遂げている。本稿では,SARChat-2MというSAR画像のための大規模多モード対話データセットを革新的に提案する。
論文参考訳（メタデータ） (2025-02-12T07:19:36Z)
LHRS-Bot-Nova: Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation [21.91073335335992]
リモートセンシング(RS)画像の理解に特化したMLLMであるLHRS-Bot-Novaを紹介する。 LHRS-Bot-Novaは拡張ビジョンエンコーダと新しいブリッジ層を備えており、効率的なビジュアル圧縮と言語ビジョンアライメントを実現している。 RS画像理解タスクにおけるLHRS-Bot-Novaの優れた性能を示す大規模な実験を行った。
論文参考訳（メタデータ） (2024-11-14T09:23:40Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文参考訳（メタデータ） (2024-09-20T14:33:17Z)
RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [3.178739428363249]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。本稿では,100万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文参考訳（メタデータ） (2024-08-27T02:45:26Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。 39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文参考訳（メタデータ） (2023-10-12T17:59:30Z)
RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large Vision-Language Model for Remote Sensing [26.71560933421903]
我々は、DVLM(Domain Pre-trained Vision-Language Model)を含む新しいフレームワークを提案する。リモートセンシング(RS)分野における画像とテキストのペア化データセットであるRS5Mについて述べる。
論文参考訳（メタデータ） (2023-06-20T05:30:59Z)
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data [14.742224345061487]
リモートセンシングデータ(RSVG)の視覚的グラウンド化の課題について紹介する。 RSVGは、自然言語のガイダンスを用いて、参照対象をリモートセンシング(RS)画像にローカライズすることを目的としている。本研究では,RSVGの大規模ベンチマークデータセットを構築し,RSVGタスクのディープラーニングモデルについて検討する。
論文参考訳（メタデータ） (2022-10-23T07:08:22Z)
On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews, Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文参考訳（メタデータ） (2020-06-22T17:59:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。