論文の概要: FE-LWS: Refined Image-Text Representations via Decoder Stacking and Fused Encodings for Remote Sensing Image Captioning
- arxiv url: http://arxiv.org/abs/2502.09282v1
- Date: Thu, 13 Feb 2025 12:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:16.474992
- Title: FE-LWS: Refined Image-Text Representations via Decoder Stacking and Fused Encodings for Remote Sensing Image Captioning
- Title(参考訳): FE-LWS: リモートセンシング画像キャプションのためのデコーダスタックと融合エンコーディングによる精細画像テキスト表現
- Authors: Swadhin Das, Raksha Sharma,
- Abstract要約: 本稿では、2つの異なるCNNベースのエンコーダの特徴を統合する新しいアプローチを提案する。
また、重み付きデコーダにおける全GRUの出力を結合する重み付き平均化手法を提案する。
以上の結果から,我々の核融合に基づくアプローチは,拡張スタックデコーダとともに,トランスフォーマーベースモデルと他のLSTMベースラインとを著しく上回る結果となった。
- 参考スコア(独自算出の注目度): 0.15346678870160887
- License:
- Abstract: Remote sensing image captioning aims to generate descriptive text from remote sensing images, typically employing an encoder-decoder framework. In this setup, a convolutional neural network (CNN) extracts feature representations from the input image, which then guide the decoder in a sequence-to-sequence caption generation process. Although much research has focused on refining the decoder, the quality of image representations from the encoder remains crucial for accurate captioning. This paper introduces a novel approach that integrates features from two distinct CNN based encoders, capturing complementary information to enhance caption generation. Additionally, we propose a weighted averaging technique to combine the outputs of all GRUs in the stacked decoder. Furthermore, a comparison-based beam search strategy is incorporated to refine caption selection. The results demonstrate that our fusion-based approach, along with the enhanced stacked decoder, significantly outperforms both the transformer-based state-of-the-art model and other LSTM-based baselines.
- Abstract(参考訳): リモートセンシング画像キャプションは、通常エンコーダ-デコーダフレームワークを使用するリモートセンシング画像から記述テキストを生成することを目的としている。
このセットアップでは、畳み込みニューラルネットワーク(CNN)が入力画像から特徴表現を抽出し、シーケンシャル・ツー・シーケンスキャプション生成プロセスでデコーダを誘導する。
多くの研究がデコーダの精細化に重点を置いているが、エンコーダの画像表現の質は正確なキャプションに不可欠である。
本稿では,2つの異なるCNNベースのエンコーダの機能を統合し,補完的な情報を取り込み,キャプション生成を向上する手法を提案する。
さらに,重み付きデコーダにおける全GRUの出力を結合する重み付き平均化手法を提案する。
さらに、比較に基づくビーム探索戦略を導入し、キャプション選択を洗練させる。
以上の結果から,我々の核融合に基づくアプローチは,拡張スタックデコーダとともに,トランスフォーマーベースモデルと他のLSTMベースラインとを著しく上回る結果となった。
関連論文リスト
- A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.15346678870160887]
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2024-09-27T06:12:31Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - An Image captioning algorithm based on the Hybrid Deep Learning
Technique (CNN+GRU) [0.0]
本稿では,CNN-GRUエンコーダデコーダのキャプション・ツー・イメージ・コンストラクタ用デコーダフレームワークを提案する。
意味的なコンテキストと時間の複雑さを考慮に入れます。
提案モデルでは,画像キャプションのための最先端のLSTM-A5モデルよりも,時間的複雑性と精度が優れている。
論文 参考訳(メタデータ) (2023-01-06T10:00:06Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Representation and Correlation Enhanced Encoder-Decoder Framework for
Scene Text Recognition [10.496558786568672]
本稿では,これらの欠陥に対処し,性能ボトルネックを解消するRepresentation and correlation Enhanced-Decoder Framework(RCEED)を提案する。
エンコーダモジュールでは、局所視覚特徴、グローバルコンテキスト特徴、位置情報を整列して融合させ、小型の包括的特徴マップを生成する。
デコーダモジュールでは,シーン特徴空間とテキスト特徴空間の相関性を高めるために2つの手法が用いられている。
論文 参考訳(メタデータ) (2021-06-13T10:36:56Z) - Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for
Fine-Resolution Remote Sensing Images [6.171417925832851]
Swin Transformerをバックボーンとして導入し、コンテキスト情報を完全に抽出します。
また、高密度接続特徴集合モジュール(DCFAM)と呼ばれる新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2021-04-25T11:34:22Z) - A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。
本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。
提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文 参考訳(メタデータ) (2020-10-05T13:35:02Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。