論文の概要: Bootstrapping Interactive Image-Text Alignment for Remote Sensing Image
Captioning
- arxiv url: http://arxiv.org/abs/2312.01191v1
- Date: Sat, 2 Dec 2023 17:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:42:36.448093
- Title: Bootstrapping Interactive Image-Text Alignment for Remote Sensing Image
Captioning
- Title(参考訳): リモートセンシング画像キャプチャのための対話型画像テキストアライメント
- Authors: Cong Yang, Zuchao Li, Lefei Zhang
- Abstract要約: BITAと呼ばれるリモートセンシング画像キャプションのための対話型画像テキストアライメントをブートストラップする2段階の視覚言語事前学習手法を提案する。
具体的には、第1段階は画像テキストコントラスト学習による予備的なアライメントを含む。
第2段階では、インタラクティブなフーリエ変換器が凍結画像エンコーダと大きな言語モデルとを接続する。
- 参考スコア(独自算出の注目度): 49.48946808024608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, remote sensing image captioning has gained significant attention in
the remote sensing community. Due to the significant differences in spatial
resolution of remote sensing images, existing methods in this field have
predominantly concentrated on the fine-grained extraction of remote sensing
image features, but they cannot effectively handle the semantic consistency
between visual features and textual features. To efficiently align the
image-text, we propose a novel two-stage vision-language pre-training-based
approach to bootstrap interactive image-text alignment for remote sensing image
captioning, called BITA, which relies on the design of a lightweight
interactive Fourier Transformer to better align remote sensing image-text
features. The Fourier layer in the interactive Fourier Transformer is capable
of extracting multi-scale features of remote sensing images in the frequency
domain, thereby reducing the redundancy of remote sensing visual features.
Specifically, the first stage involves preliminary alignment through image-text
contrastive learning, which aligns the learned multi-scale remote sensing
features from the interactive Fourier Transformer with textual features. In the
second stage, the interactive Fourier Transformer connects the frozen image
encoder with a large language model. Then, prefix causal language modeling is
utilized to guide the text generation process using visual features.
Ultimately, across the UCM-caption, RSICD, and NWPU-caption datasets, the
experimental results clearly demonstrate that BITA outperforms other advanced
comparative approaches. The code is available at
https://github.com/yangcong356/BITA.
- Abstract(参考訳): 近年,リモートセンシング画像のキャプションがリモートセンシングコミュニティで注目されている。
リモートセンシング画像の空間分解能に大きな違いがあるため,既存の手法は主にリモートセンシング画像の特徴のきめ細かい抽出に集中しているが,視覚的特徴とテキスト的特徴とのセマンティック一貫性を効果的に扱うことはできない。
画像テキストのコーディネートを効率よく行うために,BITAと呼ばれる,リモートセンシング画像キャプションのための対話的画像テキストアライメントをブートストラップする,新たな2段階の視覚言語事前学習方式を提案する。
インタラクティブフーリエ変圧器のフーリエ層は、周波数領域におけるリモートセンシング画像のマルチスケール特徴を抽出することができ、リモートセンシング視覚特徴の冗長性を低減できる。
具体的には,対話型フーリエ変換器から学習したマルチスケールリモートセンシング機能とテキスト機能とを一致させる画像テキストコントラスト学習による予備アライメントを行う。
第2段階では、インタラクティブなフーリエ変換器が凍結画像エンコーダと大きな言語モデルとを接続する。
次に、プレフィックス因果言語モデルを用いて、視覚的特徴を用いたテキスト生成プロセスをガイドする。
最終的に、UCM-caption、RSICD、NWPU-captionデータセットにおいて、実験結果はBITAが他の高度な比較手法よりも優れていることを示す。
コードはhttps://github.com/yangcong356/bitaで入手できる。
関連論文リスト
- Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval [37.775529830620016]
リモートセンシング画像-テキスト検索(RSITR)は、リモートセンシング(RS)ドメインにおける知識サービスとデータマイニングにおいて重要な機能である。
現在のマルチスケールRSITRアプローチは、通常、マルチスケールの融合画像特徴とテキスト特徴とを一致させるが、異なるスケールで画像とテキストのペアを別々に並べて見落としている。
本稿では,この制限を克服するために,新しいマルチスケールアライメント(MSA)手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T10:19:11Z) - Large Language Models for Captioning and Retrieving Remote Sensing
Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。
リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文 参考訳(メタデータ) (2024-02-09T15:31:01Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Changes to Captions: An Attentive Network for Remote Sensing Change
Captioning [15.986576036345333]
本研究では,リモートセンシング画像の変化を正確に記述することの重要性を強調した。
両時間リモートセンシング画像に対して,短時間でChg2Capと呼ばれる注意的変更対キャプションネットワークを提案する。
提案するChg2Capネットワークは2つの代表的なリモートセンシングデータセットで評価される。
論文 参考訳(メタデータ) (2023-04-03T15:51:42Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。