論文の概要: SEMT: Static-Expansion-Mesh Transformer Network Architecture for Remote Sensing Image Captioning
- arxiv url: http://arxiv.org/abs/2507.12845v1
- Date: Thu, 17 Jul 2025 07:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.381219
- Title: SEMT: Static-Expansion-Mesh Transformer Network Architecture for Remote Sensing Image Captioning
- Title(参考訳): SEMT:リモートセンシング画像キャプチャのための静的拡張-メシュ変換器ネットワークアーキテクチャ
- Authors: Khang Truong, Lam Pham, Hieu Tang, Jasmin Lampert, Martin Boyer, Son Phan, Truong Nguyen,
- Abstract要約: リモートセンシング画像キャプション(RSIC)のためのトランスフォーマーに基づくネットワークアーキテクチャを提案する。
UCM-CaptionとNWPU-Captionの2つのベンチマークリモートセンシング画像データセットを用いて提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 2.2184293265652895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning has emerged as a crucial task in the intersection of computer vision and natural language processing, enabling automated generation of descriptive text from visual content. In the context of remote sensing, image captioning plays a significant role in interpreting vast and complex satellite imagery, aiding applications such as environmental monitoring, disaster assessment, and urban planning. This motivates us, in this paper, to present a transformer based network architecture for remote sensing image captioning (RSIC) in which multiple techniques of Static Expansion, Memory-Augmented Self-Attention, Mesh Transformer are evaluated and integrated. We evaluate our proposed models using two benchmark remote sensing image datasets of UCM-Caption and NWPU-Caption. Our best model outperforms the state-of-the-art systems on most of evaluation metrics, which demonstrates potential to apply for real-life remote sensing image systems.
- Abstract(参考訳): 画像キャプションは、コンピュータビジョンと自然言語処理の交差において重要なタスクとして現れ、視覚コンテンツから記述テキストの自動生成を可能にしている。
リモートセンシングの文脈では、画像キャプションは、巨大で複雑な衛星画像の解釈、環境モニタリング、災害評価、都市計画などの応用を支援する上で重要な役割を果たしている。
本稿では, 静的拡張, メモリ拡張自己保持, メッシュトランスフォーマの複数の手法を評価・統合した, リモートセンシング画像キャプション(RSIC)のためのトランスフォーマベースのネットワークアーキテクチャを提案する。
UCM-CaptionとNWPU-Captionの2つのベンチマークリモートセンシング画像データセットを用いて提案手法の評価を行った。
評価指標のほとんどにおいて、我々の最良のモデルは最先端のシステムよりも優れており、実生活のリモートセンシング画像システムに適用できる可能性を示している。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model [23.383837540690823]
高解像度(HR)リモートセンシング画像は、都市計画や環境モニタリングなど幅広い用途において重要な役割を担っている。
センサーやデータ転送リンクの制限により、実際に取得された画像は分解能の低下に悩まされることが多い。
RSISR(Remote Sensing Image Super-Resolution)は、ローレゾリューション(LR)入力からHRイメージを再構築することを目的としており、直接HR画像を取得するためのコスト効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2025-05-29T02:38:34Z) - Vision Transformer Based Semantic Communications for Next Generation Wireless Networks [3.8095664680229935]
本稿では視覚変換器(ViT)を用いた意味コミュニケーションフレームワークを提案する。
エンコーダ・デコーダ・フレームワークとしてViTを組み込むことで,提案アーキテクチャは画像から高いセマンティック・コンテントへ効率よくエンコードすることができる。
提案したViTネットワークに基づくアーキテクチャは,38dBのPak Signal-versato-noise Ratio(PSNR)を実現する。
論文 参考訳(メタデータ) (2025-03-21T16:23:02Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - From Pixels to Prose: Advancing Multi-Modal Language Models for Remote Sensing [16.755590790629153]
本稿では,リモートセンシングにおけるマルチモーダル言語モデル(MLLM)の開発と応用について検討する。
我々は、自然言語を用いて衛星画像の解釈と記述を行う能力に焦点をあてる。
シーン記述、オブジェクト検出、変更検出、テキスト・ツー・イメージ検索、画像・ツー・テキスト生成、視覚的質問応答などの重要な応用について論じる。
論文 参考訳(メタデータ) (2024-11-05T12:14:22Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Large Language Models for Captioning and Retrieving Remote Sensing
Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。
リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文 参考訳(メタデータ) (2024-02-09T15:31:01Z) - MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z) - Bootstrapping Interactive Image-Text Alignment for Remote Sensing Image
Captioning [49.48946808024608]
BITAと呼ばれるリモートセンシング画像キャプションのための対話型画像テキストアライメントをブートストラップする2段階の視覚言語事前学習手法を提案する。
具体的には、第1段階は画像テキストコントラスト学習による予備的なアライメントを含む。
第2段階では、インタラクティブなフーリエ変換器が凍結画像エンコーダと大きな言語モデルとを接続する。
論文 参考訳(メタデータ) (2023-12-02T17:32:17Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Multi-Content Complementation Network for Salient Object Detection in
Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。
本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。
MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文 参考訳(メタデータ) (2021-12-02T04:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。