論文の概要: Large Language Models for Captioning and Retrieving Remote Sensing
Images
- arxiv url: http://arxiv.org/abs/2402.06475v1
- Date: Fri, 9 Feb 2024 15:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:27:40.367378
- Title: Large Language Models for Captioning and Retrieving Remote Sensing
Images
- Title(参考訳): リモートセンシング画像のキャプションと検索のための大規模言語モデル
- Authors: Jo\~ao Daniel Silva and Jo\~ao Magalh\~aes and Devis Tuia and Bruno
Martins
- Abstract要約: RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。
リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
- 参考スコア(独自算出の注目度): 4.499596985198142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning and cross-modal retrieval are examples of tasks that involve
the joint analysis of visual and linguistic information. In connection to
remote sensing imagery, these tasks can help non-expert users in extracting
relevant Earth observation information for a variety of applications. Still,
despite some previous efforts, the development and application of vision and
language models to the remote sensing domain have been hindered by the
relatively small size of the available datasets and models used in previous
studies. In this work, we propose RS-CapRet, a Vision and Language method for
remote sensing tasks, in particular image captioning and text-image retrieval.
We specifically propose to use a highly capable large decoder language model
together with image encoders adapted to remote sensing imagery through
contrastive language-image pre-training. To bridge together the image encoder
and language decoder, we propose training simple linear layers with examples
from combining different remote sensing image captioning datasets, keeping the
other parameters frozen. RS-CapRet can then generate descriptions for remote
sensing images and retrieve images from textual descriptions, achieving SOTA or
competitive performance with existing methods. Qualitative results illustrate
that RS-CapRet can effectively leverage the pre-trained large language model to
describe remote sensing images, retrieve them based on different types of
queries, and also show the ability to process interleaved sequences of images
and text in a dialogue manner.
- Abstract(参考訳): 画像キャプションとクロスモーダル検索は、視覚情報と言語情報の共同分析を含むタスクの例である。
リモートセンシングイメージに関連して、これらのタスクは、非専門家ユーザーがさまざまなアプリケーションのために関連する地球観測情報を抽出するのに役立つ。
それでも、いくつかの以前の取り組みにもかかわらず、リモートセンシング領域へのビジョンと言語モデルの開発と適用は、以前の研究で使用されていたデータセットとモデルの比較的小さなサイズによって妨げられている。
本研究では,リモートセンシングタスク,特に画像キャプションとテキスト画像検索のための視覚・言語手法であるRS-CapRetを提案する。
具体的には,高機能な大規模デコーダ言語モデルと,コントラスト言語イメージ事前学習によるリモートセンシング画像に適応した画像エンコーダを提案する。
画像エンコーダと言語デコーダをブリッジするために、異なるリモートセンシング画像キャプションデータセットを組み合わせ、他のパラメータを凍結させ、簡単な線形層をトレーニングする。
RS-CapRetは、リモートセンシング画像の記述を生成し、テキスト記述から画像を取得し、既存のメソッドでSOTAや競合パフォーマンスを達成する。
定性的な結果から,rs-capretは,事前学習された大規模言語モデルを用いて,リモートセンシング画像の表現や,異なる種類のクエリに基づく検索,画像とテキストのインターリーブシーケンスを対話的に処理できることを示す。
関連論文リスト
- Multilingual Vision-Language Pre-training for the Remote Sensing Domain [4.118895088882213]
コントラスト言語-画像事前学習(CLIP)に基づく手法は、現在、リモートセンシングデータを含む視覚・言語タスクをサポートするために広く使われている。
本研究は,多言語CLIPモデルの微調整を探求する,リモートセンシング領域のための新しいビジョン・アンド・ランゲージモデルを提案する。
提案したモデルでは,Remote Sensing Multilingual CLIP (RS-M-CLIP) と名づけた。
論文 参考訳(メタデータ) (2024-10-30T18:13:11Z) - RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [3.178739428363249]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。
本稿では,100万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文 参考訳(メタデータ) (2024-08-27T02:45:26Z) - Towards a multimodal framework for remote sensing image change retrieval and captioning [3.3488510654648453]
本稿では,両時間RS画像ペアのための新しい基礎モデルを提案する。
コントラストエンコーダとキャプションデコーダを共同でトレーニングすることにより、両時間的変化検出の文脈でテキスト画像検索機能を付加する。
論文 参考訳(メタデータ) (2024-06-19T10:30:56Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Knowledge-aware Text-Image Retrieval for Remote Sensing Images [6.4527372338977]
クロスモーダルテキストイメージ検索は、しばしばテキストと画像の間の情報非対称性に悩まされる。
外部知識グラフから関連情報をマイニングすることにより,知識を考慮したテキスト画像検索手法を提案する。
提案手法は, 知識認識手法により多様かつ一貫した検索が実現され, 最先端の検索方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:27:27Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - Towards Automatic Satellite Images Captions Generation Using Large
Language Models [0.5439020425819]
リモートセンシング画像のキャプションを自動的に収集するARSIC(Automatic Remote Sensing Image Captioning)を提案する。
また、事前学習された生成画像2テキストモデル(GIT)を用いて、リモートセンシング画像の高品質なキャプションを生成するベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-10-17T16:45:47Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。