Fugu-MT 論文翻訳(概要): RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

論文の概要: RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

arxiv url: http://arxiv.org/abs/2306.11300v2
Date: Thu, 31 Aug 2023 22:33:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-04 16:29:33.437091
Title: RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model
Title（参考訳）: rs5m: リモートセンシング視覚言語基礎モデルのための大規模視覚言語データセット
Authors: Zilun Zhang, Tiancheng Zhao, Yulong Guo, Jianwei Yin
Abstract要約: ドメイン固有の下流タスクを実行するためのドメインファウンデーションモデル(DFM)を含む新しいフレームワークを提案する。リモートセンシング(RS)分野における画像とテキストのペア化データセットであるRS5Mについて述べる。提案したデータセットは, 様々なタスクに有効であり, ゼロショット分類タスクにおいて, 8 % sim 16 % のベースライン向上を実現している。
参考スコア（独自算出の注目度）: 26.71560933421903
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Pre-trained Vision-Language Foundation Models utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. In this paper, we propose a new framework that includes the Domain Foundation Model (DFM), bridging the gap between the General Foundation Model (GFM) and domain-specific downstream tasks. Moreover, we present an image-text paired dataset in the field of remote sensing (RS), RS5M, which has 5 million RS images with English descriptions. The dataset is obtained from filtering publicly available image-text paired datasets and captioning label-only RS datasets with pre-trained VLM. These constitute the first large-scale RS image-text paired dataset. Additionally, we tried several Parameter-Efficient Fine-Tuning methods on RS5M to implement the DFM. Experimental results show that our proposed dataset are highly effective for various tasks, improving upon the baseline by $8 \% \sim 16 \%$ in zero-shot classification tasks, and obtaining good results in both Vision-Language Retrieval and Semantic Localization tasks. \url{https://github.com/om-ai-lab/RS5M}
Abstract（参考訳）: 画像テキストペアリングデータを利用した事前学習型ビジョン・ランゲージ基礎モデルでは、様々な下流タスクにおいて顕著な結果が得られた。重要な課題は、共通オブジェクト上でトレーニングされた既存の大規模事前学習vlmを使用して、ドメイン関連のダウンストリームタスクを達成するためにドメイン固有の転送を実行する方法だ。本稿では,ドメインファウンデーションモデル(dfm)を含む新しいフレームワークを提案し,汎用ファウンデーションモデル(gfm)とドメイン固有のダウンストリームタスクのギャップを橋渡しする。さらに,500万のrs画像と英語記述を持つ,リモートセンシング(rs)分野のrs5mにおいて,画像テキスト対のデータセットを提案する。データセットは、公開されている画像テキストペアデータセットをフィルタリングし、ラベルのみのRSデータセットを予めトレーニングされたVLMでキャプションすることで得られる。これらは、最初の大規模RS画像テキストペアデータセットである。さらに, DFM の実装のために, RS5M 上でパラメータ効率の良いファインチューニング手法をいくつか試した。実験の結果,提案するデータセットは様々なタスクに非常に有効であり,ゼロショット分類タスクにおいて8 \% \sim 16 \%$ でベースラインを改善し,視覚言語検索と意味的局所化タスクの両方において良好な結果を得ることができた。 \url{https://github.com/om-ai-lab/RS5M}

関連論文リスト

Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文参考訳（メタデータ） (2025-11-26T10:55:07Z)
Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文参考訳（メタデータ） (2025-08-18T07:24:33Z)
Enhancing Remote Sensing Vision-Language Models Through MLLM and LLM-Based High-Quality Image-Text Dataset Generation [21.62138893025555]
重要な課題は、高品質で大規模な画像テキストペアリングトレーニングデータの不足にある。 RS画像の高品質なテキストキャプションを生成するために,MpGIという2段階の手法を提案する。識別モデルであるCLIPと、画像からテキストへの生成モデルであるCoCaという2つのVLFMをデータセットを用いて微調整した。
論文参考訳（メタデータ） (2025-07-22T15:54:53Z)
RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。 RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文参考訳（メタデータ） (2024-12-07T15:11:21Z)
RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [3.178739428363249]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。本稿では,100万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文参考訳（メタデータ） (2024-08-27T02:45:26Z)
VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。 ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文参考訳（メタデータ） (2024-04-30T15:49:03Z)
Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。 VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文参考訳（メタデータ） (2024-03-20T17:54:58Z)
SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文参考訳（メタデータ） (2023-12-20T09:19:48Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)
GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。 GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文参考訳（メタデータ） (2023-11-24T18:59:10Z)
RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文参考訳（メタデータ） (2023-07-28T02:23:35Z)
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data [14.742224345061487]
リモートセンシングデータ(RSVG)の視覚的グラウンド化の課題について紹介する。 RSVGは、自然言語のガイダンスを用いて、参照対象をリモートセンシング(RS)画像にローカライズすることを目的としている。本研究では,RSVGの大規模ベンチマークデータセットを構築し,RSVGタスクのディープラーニングモデルについて検討する。
論文参考訳（メタデータ） (2022-10-23T07:08:22Z)
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文参考訳（メタデータ） (2022-06-15T16:41:29Z)
WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.603259641572195]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文参考訳（メタデータ） (2022-03-22T06:12:20Z)
Self-Supervised Representation Learning for RGB-D Salient Object Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。 RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文参考訳（メタデータ） (2021-01-29T09:16:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。