論文の概要: MsEdF: A Multi-stream Encoder-decoder Framework for Remote Sensing Image Captioning
- arxiv url: http://arxiv.org/abs/2502.09282v4
- Date: Tue, 28 Oct 2025 04:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:19.979988
- Title: MsEdF: A Multi-stream Encoder-decoder Framework for Remote Sensing Image Captioning
- Title(参考訳): MsEdF:リモートセンシング画像キャプチャのためのマルチストリームエンコーダデコーダフレームワーク
- Authors: Swadhin Das, Raksha Sharma,
- Abstract要約: リモートセンシング画像には複雑な空間パターンや意味構造が含まれており、キャプションモデルを正確に記述することは困難である。
空間表現と言語生成の両方を最適化することにより、RSICの性能を向上させる新しいマルチストリームデコーダフレームワーク(MsEdF)を提案する。
3つのベンチマークRSICデータセットの実験は、MsEdFがいくつかのベースラインモデルより優れていることを示している。
- 参考スコア(独自算出の注目度): 2.435006380732194
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Remote sensing images contain complex spatial patterns and semantic structures, which makes the captioning model difficult to accurately describe. Encoder-decoder architectures have become the widely used approach for RSIC by translating visual content into descriptive text. However, many existing methods rely on a single-stream architecture, which weakens the model to accurately describe the image. Such single-stream architectures typically struggle to extract diverse spatial features or capture complex semantic relationships, limiting their effectiveness in scenes with high intraclass similarity or contextual ambiguity. In this work, we propose a novel Multi-stream Encoder-decoder Framework (MsEdF) which improves the performance of RSIC by optimizing both the spatial representation and language generation of encoder-decoder architecture. The encoder fuses information from two complementary image encoders, thereby promoting feature diversity through the integration of multiscale and structurally distinct cues. To improve the capture of context-aware descriptions, we refine the input sequence's semantic modeling on the decoder side using a stacked GRU architecture with an element-wise aggregation scheme. Experiments on three benchmark RSIC datasets show that MsEdF outperforms several baseline models.
- Abstract(参考訳): リモートセンシング画像には複雑な空間パターンや意味構造が含まれており、キャプションモデルを正確に記述することは困難である。
エンコーダ・デコーダアーキテクチャは、視覚コンテンツを記述テキストに変換することで、RSICの広く使われているアプローチとなっている。
しかし、既存の多くの手法は単一ストリームアーキテクチャに依存しており、正確に画像を記述するためにモデルを弱めている。
このような単一ストリームアーキテクチャは、様々な空間的特徴を抽出したり、複雑な意味的関係を捉えるのに苦労し、高いクラス内類似性や文脈的あいまいさを持つシーンでの有効性を制限している。
本研究では,エンコーダ・デコーダアーキテクチャの空間表現と言語生成を最適化することにより,RSICの性能を向上させる新しいマルチストリームエンコーダ・デコーダフレームワーク(MsEdF)を提案する。
エンコーダは、2つの補完画像エンコーダからの情報を融合し、マルチスケールおよび構造的に異なるキューの統合により特徴多様性を促進する。
文脈認識記述のキャプチャを改善するため,要素ワイドアグリゲーション方式を用いて,重畳GRUアーキテクチャを用いてデコーダ側の入力シーケンスのセマンティックモデリングを洗練する。
3つのベンチマークRSICデータセットの実験は、MsEdFがいくつかのベースラインモデルより優れていることを示している。
関連論文リスト
- A Novel Lightweight Transformer with Edge-Aware Fusion for Remote Sensing Image Captioning [0.12499537119440242]
エンコーダ層の寸法を小さくし, 蒸留したGPT-2をデコーダとして使用するために, 軽量トランスフォーマアーキテクチャを提案する。
知識蒸留戦略は、より複雑な教師モデルから知識を伝達し、軽量ネットワークの性能を向上させるために用いられる。
実験により,提案手法は,最先端手法と比較してキャプション品質を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-06-11T06:24:02Z) - Good Representation, Better Explanation: Role of Convolutional Neural Networks in Transformer-Based Remote Sensing Image Captioning [0.6058427379240696]
リモートセンシング画像キャプチャ(RSIC)における12種類の畳み込みニューラルネットワーク(CNN)アーキテクチャをトランスフォーマーベースのエンコーダフレームワーク内で体系的に評価し,その有効性を評価する。
その結果,キャプション性能向上におけるエンコーダ選択の重要性が強調され,特定のCNNアーキテクチャがリモートセンシング画像に対して生成した記述の品質を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-02-22T05:36:28Z) - Col-OLHTR: A Novel Framework for Multimodal Online Handwritten Text Recognition [82.88856416080331]
オンライン手書き文字認識(OLHTR)は様々な用途で注目されている。
現在のアプローチは通常、OLHTRをシーケンス認識タスクとして扱い、単一のトラジェクトリまたはイメージエンコーダまたはマルチストリームエンコーダを使用する。
単ストリーム推論プロセスを維持しながら、トレーニング中にマルチモーダルな特徴を学習するコラボレーティブ学習ベースのOLHTRフレームワークCol-OLHTRを提案する。
論文 参考訳(メタデータ) (2025-02-10T02:12:24Z) - Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。
私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文 参考訳(メタデータ) (2024-12-31T13:39:08Z) - A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.15346678870160887]
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2024-09-27T06:12:31Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - A Multi-Stream Fusion Network for Image Splicing Localization [18.505512386111985]
本稿では,複数のエンコーダストリームからなるエンコーダデコーダアーキテクチャを提案する。
各ストリームは、改ざんされた画像または手作りの信号で供給され、個別に処理され、各ストリームから関連する情報を分離して取得する。
複数のストリームから抽出された特徴は、アーキテクチャのボトルネックに融合し、出力のローカライゼーションマップを生成するデコーダネットワークに伝播する。
論文 参考訳(メタデータ) (2022-12-02T12:17:53Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Representation and Correlation Enhanced Encoder-Decoder Framework for
Scene Text Recognition [10.496558786568672]
本稿では,これらの欠陥に対処し,性能ボトルネックを解消するRepresentation and correlation Enhanced-Decoder Framework(RCEED)を提案する。
エンコーダモジュールでは、局所視覚特徴、グローバルコンテキスト特徴、位置情報を整列して融合させ、小型の包括的特徴マップを生成する。
デコーダモジュールでは,シーン特徴空間とテキスト特徴空間の相関性を高めるために2つの手法が用いられている。
論文 参考訳(メタデータ) (2021-06-13T10:36:56Z) - Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for
Fine-Resolution Remote Sensing Images [6.171417925832851]
Swin Transformerをバックボーンとして導入し、コンテキスト情報を完全に抽出します。
また、高密度接続特徴集合モジュール(DCFAM)と呼ばれる新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2021-04-25T11:34:22Z) - A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。
本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。
提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文 参考訳(メタデータ) (2020-10-05T13:35:02Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。