論文の概要: SD-RSIC: Summarization Driven Deep Remote Sensing Image Captioning
- arxiv url: http://arxiv.org/abs/2006.08432v2
- Date: Tue, 13 Oct 2020 10:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:21:59.144230
- Title: SD-RSIC: Summarization Driven Deep Remote Sensing Image Captioning
- Title(参考訳): SD-RSIC:要約駆動深部リモートセンシング画像キャプチャ
- Authors: Gencer Sumbul, Sonali Nayak, Beg\"um Demir
- Abstract要約: 本稿では,SD-RSIC(Summarization Driven Remote Sensing Image Captioning)アプローチを提案する。
提案手法は3つの主要なステップから構成される。第1ステップは、畳み込みニューラルネットワーク(CNN)と長期記憶(LSTM)ネットワークを併用することで、標準的な画像キャプションを取得する。
第2のステップは、トレーニングセットに存在する配列をシーケンスニューラルネットワークに利用し、トレーニングセットに存在する冗長性を排除して、各トレーニングイメージのグランドトゥルースキャプションを単一のキャプションに要約する。
第3ステップでは、各RS画像に関連する適応重みを自動的に定義し、その意味に基づいて標準キャプションと要約キャプションを結合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have been recently found popular for image
captioning problems in remote sensing (RS). Existing DNN based approaches rely
on the availability of a training set made up of a high number of RS images
with their captions. However, captions of training images may contain redundant
information (they can be repetitive or semantically similar to each other),
resulting in information deficiency while learning a mapping from the image
domain to the language domain. To overcome this limitation, in this paper, we
present a novel Summarization Driven Remote Sensing Image Captioning (SD-RSIC)
approach. The proposed approach consists of three main steps. The first step
obtains the standard image captions by jointly exploiting convolutional neural
networks (CNNs) with long short-term memory (LSTM) networks. The second step,
unlike the existing RS image captioning methods, summarizes the ground-truth
captions of each training image into a single caption by exploiting sequence to
sequence neural networks and eliminates the redundancy present in the training
set. The third step automatically defines the adaptive weights associated to
each RS image to combine the standard captions with the summarized captions
based on the semantic content of the image. This is achieved by a novel
adaptive weighting strategy defined in the context of LSTM networks.
Experimental results obtained on the RSCID, UCM-Captions and Sydney-Captions
datasets show the effectiveness of the proposed approach compared to the
state-of-the-art RS image captioning approaches. The code of the proposed
approach is publicly available at
https://gitlab.tubit.tu-berlin.de/rsim/SD-RSIC.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)は、リモートセンシング(RS)における画像キャプション問題に人気がある。
既存のDNNベースのアプローチは、多数のRSイメージとキャプションで構成されるトレーニングセットの可用性に依存している。
しかし、訓練画像のキャプションには冗長な情報(反復的あるいは意味的に互いに類似する)が含まれており、画像領域から言語領域へのマッピングを学習しながら情報が不足することがある。
本稿では,この制限を克服するために,SD-RSIC(Summarization Driven Remote Sensing Image Captioning)アプローチを提案する。
提案手法は3つの主要なステップからなる。
最初のステップでは、畳み込みニューラルネットワーク(CNN)と長い短期記憶(LSTM)ネットワークを併用して、標準的な画像キャプションを取得する。
第2のステップは、既存のrs画像キャプション手法とは異なり、各トレーニング画像の基底キャプションを1つのキャプションに要約し、シーケンスを利用してニューラルネットワークをシーケンス化し、トレーニングセットに存在する冗長性を排除する。
第3ステップは、各RS画像に関連する適応重みを自動的に定義し、画像の意味内容に基づいて標準キャプションと要約キャプションを結合する。
これはLSTMネットワークの文脈で定義された新しい適応重み付け戦略によって達成される。
RSCID, UCM-Captions, Sydney-Captionsデータセットで得られた実験結果は, 最新のRS画像キャプション手法と比較して提案手法の有効性を示した。
提案されたアプローチのコードはhttps://gitlab.tubit.tu-berlin.de/rsim/SD-RSICで公開されている。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Towards a multimodal framework for remote sensing image change retrieval and captioning [3.3488510654648453]
本稿では,両時間RS画像ペアのための新しい基礎モデルを提案する。
コントラストエンコーダとキャプションデコーダを共同でトレーニングすることにより、両時間的変化検出の文脈でテキスト画像検索機能を付加する。
論文 参考訳(メタデータ) (2024-06-19T10:30:56Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - A Novel Triplet Sampling Method for Multi-Label Remote Sensing Image
Search and Retrieval [1.123376893295777]
計量空間を学ぶための一般的なアプローチは、類似した(正の)画像と異種(負の)画像の選択に依存する。
マルチラベルRS CBIR問題に対して定義されたディープニューラルネットワーク(DNNs)の枠組みにおける新しいトリプレットサンプリング法を提案する。
論文 参考訳(メタデータ) (2021-05-08T09:16:09Z) - A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。
本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。
提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文 参考訳(メタデータ) (2020-10-05T13:35:02Z) - Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent
Experts [5.859294565508523]
特徴を抽出する画像エンコーダと、抽出された特徴の集合を単語の集合に埋め込む再帰ネットワークと、得られた単語をスタイリングされた文として結合する文生成器とを含む新しいキャプションモデルを開発する。
提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T11:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。