論文の概要: A Novel Lightweight Transformer with Edge-Aware Fusion for Remote Sensing Image Captioning
- arxiv url: http://arxiv.org/abs/2506.09429v1
- Date: Wed, 11 Jun 2025 06:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.584163
- Title: A Novel Lightweight Transformer with Edge-Aware Fusion for Remote Sensing Image Captioning
- Title(参考訳): エッジ・アウェア・フュージョンを用いたリモートセンシング画像キャプション用軽量トランス
- Authors: Swadhin Das, Divyansh Mundra, Priyanshu Dayal, Raksha Sharma,
- Abstract要約: エンコーダ層の寸法を小さくし, 蒸留したGPT-2をデコーダとして使用するために, 軽量トランスフォーマアーキテクチャを提案する。
知識蒸留戦略は、より複雑な教師モデルから知識を伝達し、軽量ネットワークの性能を向上させるために用いられる。
実験により,提案手法は,最先端手法と比較してキャプション品質を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 0.12499537119440242
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer-based models have achieved strong performance in remote sensing image captioning by capturing long-range dependencies and contextual information. However, their practical deployment is hindered by high computational costs, especially in multi-modal frameworks that employ separate transformer-based encoders and decoders. In addition, existing remote sensing image captioning models primarily focus on high-level semantic extraction while often overlooking fine-grained structural features such as edges, contours, and object boundaries. To address these challenges, a lightweight transformer architecture is proposed by reducing the dimensionality of the encoder layers and employing a distilled version of GPT-2 as the decoder. A knowledge distillation strategy is used to transfer knowledge from a more complex teacher model to improve the performance of the lightweight network. Furthermore, an edge-aware enhancement strategy is incorporated to enhance image representation and object boundary understanding, enabling the model to capture fine-grained spatial details in remote sensing images. Experimental results demonstrate that the proposed approach significantly improves caption quality compared to state-of-the-art methods.
- Abstract(参考訳): トランスフォーマーベースのモデルは、長距離依存やコンテキスト情報をキャプチャすることで、リモートセンシング画像キャプションにおいて強力なパフォーマンスを実現している。
しかし、それらの実践的な展開は、特にトランスフォーマーベースのエンコーダとデコーダを別々に使用するマルチモーダルフレームワークにおいて、高い計算コストによって妨げられている。
さらに、既存のリモートセンシング画像キャプションモデルは、主にハイレベルなセマンティック抽出に焦点を当てているが、エッジ、輪郭、オブジェクトの境界といったきめ細かい構造的特徴を見落としていることが多い。
これらの課題に対処するために、エンコーダ層の寸法を小さくし、GPT-2の蒸留版をデコーダとして使用することにより、軽量なトランスフォーマーアーキテクチャを提案する。
知識蒸留戦略は、より複雑な教師モデルから知識を伝達し、軽量ネットワークの性能を向上させるために用いられる。
さらに、画像表現とオブジェクト境界理解を強化するために、エッジ認識の強化戦略が組み込まれ、リモートセンシング画像におけるきめ細かい空間的詳細を捉えることができる。
実験により,提案手法は,最先端手法と比較してキャプション品質を著しく向上することが示された。
関連論文リスト
- WiTUnet: A U-Shaped Architecture Integrating CNN and Transformer for Improved Feature Alignment and Local Information Fusion [16.41082757280262]
低線量CT (LDCT) は, 標準CTと比較して放射線線量が少ないことから, 医用画像診断において選択される技術となっている。
本稿では,従来のスキップ接続ではなく,ネストされた高密度スキップ経路を利用するLDCT画像復号法であるWiTUnetを紹介する。
論文 参考訳(メタデータ) (2024-04-15T07:53:07Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Effective Image Tampering Localization via Enhanced Transformer and
Co-attention Fusion [5.691973573807887]
本稿では,2分岐拡張型トランスフォーマーエンコーダを用いた画像改ざんネットワーク(EITLNet)を提案する。
RGBとノイズストリームから抽出した特徴は、座標注意に基づく融合モジュールによって効果的に融合される。
論文 参考訳(メタデータ) (2023-09-17T15:43:06Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Unsupervised Structure-Consistent Image-to-Image Translation [6.282068591820945]
Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は、勾配反転層に基づく単純で効果的な補助モジュールを導入することにより、この作業を改善する。
補助モジュールの損失は、ジェネレータが全ゼロテクスチャコードでイメージを再構築することを学ぶことを強制する。
論文 参考訳(メタデータ) (2022-08-24T13:47:15Z) - CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-03-22T16:13:27Z) - Transformer-based SAR Image Despeckling [53.99620005035804]
本稿では,SAR画像復号化のためのトランスフォーマーネットワークを提案する。
提案する非特定ネットワークは、トランスフォーマーベースのエンコーダにより、異なる画像領域間のグローバルな依存関係を学習することができる。
実験により,提案手法は従来型および畳み込み型ニューラルネットワークに基づく解法よりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2022-01-23T20:09:01Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。