論文の概要: Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image Captioning
- arxiv url: http://arxiv.org/abs/2503.23453v1
- Date: Sun, 30 Mar 2025 14:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.130124
- Title: Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image Captioning
- Title(参考訳): リモートセンシング画像キャプションのための動的グラフリファインメントを用いた意味空間的特徴融合
- Authors: Maofu Liu, Jiahui Liu, Xiaokang Zhang,
- Abstract要約: 本稿では,動的グラフ精錬法(SFDR)を用いた意味空間的特徴融合を提案する。
提案手法は,生成した記述の質を著しく向上させる。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 11.015244501780078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image captioning aims to generate semantically accurate descriptions that are closely linked to the visual features of remote sensing images. Existing approaches typically emphasize fine-grained extraction of visual features and capturing global information. However, they often overlook the complementary role of textual information in enhancing visual semantics and face challenges in precisely locating objects that are most relevant to the image context. To address these challenges, this paper presents a semantic-spatial feature fusion with dynamic graph refinement (SFDR) method, which integrates the semantic-spatial feature fusion (SSFF) and dynamic graph feature refinement (DGFR) modules. The SSFF module utilizes a multi-level feature representation strategy by leveraging pre-trained CLIP features, grid features, and ROI features to integrate rich semantic and spatial information. In the DGFR module, a graph attention network captures the relationships between feature nodes, while a dynamic weighting mechanism prioritizes objects that are most relevant to the current scene and suppresses less significant ones. Therefore, the proposed SFDR method significantly enhances the quality of the generated descriptions. Experimental results on three benchmark datasets demonstrate the effectiveness of the proposed method. The source code will be available at https://github.com/zxk688}{https://github.com/zxk688.
- Abstract(参考訳): リモートセンシング画像キャプションは、リモートセンシング画像の視覚的特徴と密接に関連している意味論的に正確な記述を生成することを目的としている。
既存のアプローチは、通常、視覚的特徴のきめ細かい抽出とグローバルな情報の取得を強調している。
しかし、視覚的意味論の強化におけるテキスト情報の補完的役割や、画像コンテキストに最も関係のある物体を正確に特定する上での課題をしばしば見落としている。
これらの課題に対処するため,本稿では,意味空間的特徴融合(SSFF)と動的グラフ的特徴融合(DGFR)モジュールを統合した,動的グラフ精錬(SFDR)法による意味空間的特徴融合を提案する。
SSFFモジュールは、トレーニング済みのCLIP機能、グリッド機能、ROI機能を活用して、リッチな意味情報と空間情報を統合することで、マルチレベルの特徴表現戦略を利用する。
DGFRモジュールでは、グラフアテンションネットワークが特徴ノード間の関係をキャプチャし、動的重み付け機構が現在のシーンに最も関係のあるオブジェクトを優先し、重要でないオブジェクトを抑圧する。
そのため,提案手法は生成した記述の質を著しく向上させる。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
ソースコードはhttps://github.com/zxk688}{https://github.com/zxk688で入手できる。
関連論文リスト
- A Semantic-Enhanced Heterogeneous Graph Learning Method for Flexible Objects Recognition [3.5624857747396814]
フレキシブルオブジェクト認識のための意味強化ヘテロジニアスグラフ学習法を提案する。
適応走査モジュールを用いて意味的コンテキストを抽出し、様々な形状と大きさの柔軟なオブジェクトのマッチングを容易にする。
グラフ生成モジュールは、グローバルなビジュアルおよびローカルなセマンティックノードの特徴を集約し、柔軟なオブジェクトの認識を改善する。
論文 参考訳(メタデータ) (2025-03-28T01:55:43Z) - RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:48:57Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。