Fugu-MT 論文翻訳(概要): SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing

論文の概要: SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing

arxiv url: http://arxiv.org/abs/2312.12856v1
Date: Wed, 20 Dec 2023 09:19:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 16:15:01.500063
Title: SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing
Title（参考訳）: SkyScript: リモートセンシングのための大規模でセマンティックなビジョンランゲージデータセット
Authors: Zhecheng Wang, Rajanie Prabha, Tianyuan Huang, Jiajun Wu, Ram Rajagopal
Abstract要約: 我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
参考スコア（独自算出の注目度）: 14.79627534702196
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Remote sensing imagery, despite its broad applications in helping achieve Sustainable Development Goals and tackle climate change, has not yet benefited from the recent advancements of versatile, task-agnostic vision language models (VLMs). A key reason is that the large-scale, semantically diverse image-text dataset required for developing VLMs is still absent for remote sensing images. Unlike natural images, remote sensing images and their associated text descriptions cannot be efficiently collected from the public Internet at scale. In this work, we bridge this gap by using geo-coordinates to automatically connect open, unlabeled remote sensing images with rich semantics covered in OpenStreetMap, and thus construct SkyScript, a comprehensive vision-language dataset for remote sensing images, comprising 2.6 million image-text pairs covering 29K distinct semantic tags. With continual pre-training on this dataset, we obtain a VLM that surpasses baseline models with a 6.2% average accuracy gain in zero-shot scene classification across seven benchmark datasets. It also demonstrates the ability of zero-shot transfer for fine-grained object attribute classification and cross-modal retrieval. We hope this dataset can support the advancement of VLMs for various multi-modal tasks in remote sensing, such as open-vocabulary classification, retrieval, captioning, and text-to-image synthesis.
Abstract（参考訳）: リモートセンシング画像は、持続可能な開発目標達成と気候変動への取り組みに広く応用されているが、近年の多目的・タスクに依存しない視覚言語モデル(VLM)の進歩の恩恵を受けていない。主な理由は、VLMの開発に必要な大規模で意味的に多様な画像テキストデータセットが、リモートセンシング画像にはまだ欠けていることである。自然画像とは異なり、リモートセンシング画像とその関連テキスト記述は、大規模インターネットから効率的に収集することはできない。本研究では,このギャップを埋めるために,ジオコーディネート(geo-coordinates)を用いて,openstreetmapでカバーされたリッチなセマンティクスを持つ,ラベルのない開いているリモートセンシングイメージを自動的に接続し,29kの異なるセマンティクスタグをカバーする26万のイメージテキストペアからなる,総合的なビジョン言語データセットであるskyscriptを構築する。このデータセット上で連続的な事前トレーニングを行うことで、7つのベンチマークデータセットのゼロショットシーン分類において、平均精度が6.2%のベースラインモデルを超えるVLMが得られる。また、細粒度オブジェクト属性分類とクロスモーダル検索のためのゼロショット転送の能力を示す。このデータセットは、オープン語彙分類、検索、キャプション、テキスト・ツー・イメージ合成など、リモートセンシングにおける様々なマルチモーダルタスクのためのVLMの進歩をサポートすることを願っている。

関連論文リスト

A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文参考訳（メタデータ） (2025-03-10T21:09:02Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation [12.32553804641971]
視覚言語モデル(VLM)は自然言語処理や画像理解において顕著な進歩を遂げている。本稿では,SARChat-2MというSAR画像のための大規模多モード対話データセットを革新的に提案する。
論文参考訳（メタデータ） (2025-02-12T07:19:36Z)
Measuring and Mitigating Hallucinations in Vision-Language Dataset Generation for Remote Sensing [19.344890308208555]
本稿では,地図を外部データソースとして統合することで,遠隔センシングのための視覚言語データセットを強化する手法を提案する。本稿では、衛星画像、地図、メタデータ、テキストアノテーションを組み込んだマルチモーダルデータセットであるfMoW-mmを紹介する。
論文参考訳（メタデータ） (2025-01-24T20:13:29Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Multilingual Vision-Language Pre-training for the Remote Sensing Domain [4.118895088882213]
コントラスト言語-画像事前学習(CLIP)に基づく手法は、現在、リモートセンシングデータを含む視覚・言語タスクをサポートするために広く使われている。本研究は,多言語CLIPモデルの微調整を探求する,リモートセンシング領域のための新しいビジョン・アンド・ランゲージモデルを提案する。提案したモデルでは,Remote Sensing Multilingual CLIP (RS-M-CLIP) と名づけた。
論文参考訳（メタデータ） (2024-10-30T18:13:11Z)
RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [3.178739428363249]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。本稿では,100万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文参考訳（メタデータ） (2024-08-27T02:45:26Z)
VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis [48.06425266787859]
本稿では,リモートセンシング画像解析のためのVersatile and Honest Vision Language Model (VHM) を提案する。 VHMは、リッチコンテンツキャプション(VersaD)を備えた大規模リモートセンシング画像テキストデータセットと、事実と偽造的質問(HnstD)の両方からなる正直な命令データセット上に構築されている。実験では,VHMはシーン分類,視覚的質問応答,視覚的接地といった共通タスクにおいて,様々な視覚言語モデルよりも優れていた。
論文参考訳（メタデータ） (2024-03-29T14:50:43Z)
Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。 VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文参考訳（メタデータ） (2024-03-20T17:54:58Z)
Large Language Models for Captioning and Retrieving Remote Sensing Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文参考訳（メタデータ） (2024-02-09T15:31:01Z)
MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文参考訳（メタデータ） (2023-12-20T03:16:34Z)
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文参考訳（メタデータ） (2023-12-12T03:39:07Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文参考訳（メタデータ） (2022-06-15T16:41:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。