論文の概要: SAM Guided Semantic and Motion Changed Region Mining for Remote Sensing Change Captioning
- arxiv url: http://arxiv.org/abs/2511.21420v1
- Date: Wed, 26 Nov 2025 14:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.135784
- Title: SAM Guided Semantic and Motion Changed Region Mining for Remote Sensing Change Captioning
- Title(参考訳): リモートセンシング変更キャプションのためのSAMガイドと動作変化領域マイニング
- Authors: Futian Wang, Mengqi Wang, Xiao Wang, Haowen Wang, Jin Tang,
- Abstract要約: 本稿では,SAM(Segment Anything Model)基盤モデルを用いて,領域レベルの表現を抽出し,関心領域の知識をキャプションフレームワークに注入する方法について検討する。
我々はCNN/Transformerモデルを用いて、グローバルレベルの視覚特徴を抽出し、SAMファンデーションモデルを利用して意味・動作レベルの変化領域を記述し、特に構築された知識グラフを用いて興味のある対象に関する情報を提供する。
- 参考スコア(独自算出の注目度): 16.276257222647136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing change captioning is an emerging and popular research task that aims to describe, in natural language, the content of interest that has changed between two remote sensing images captured at different times. Existing methods typically employ CNNs/Transformers to extract visual representations from the given images or incorporate auxiliary tasks to enhance the final results, with weak region awareness and limited temporal alignment. To address these issues, this paper explores the use of the SAM (Segment Anything Model) foundation model to extract region-level representations and inject region-of-interest knowledge into the captioning framework. Specifically, we employ a CNN/Transformer model to extract global-level vision features, leverage the SAM foundation model to delineate semantic- and motion-level change regions, and utilize a specially constructed knowledge graph to provide information about objects of interest. These heterogeneous sources of information are then fused via cross-attention, and a Transformer decoder is used to generate the final natural language description of the observed changes. Extensive experimental results demonstrate that our method achieves state-of-the-art performance across multiple widely used benchmark datasets. The source code of this paper will be released on https://github.com/Event-AHU/SAM_ChangeCaptioning
- Abstract(参考訳): リモートセンシング変更キャプションは、自然言語において、異なる時間に撮影された2つのリモートセンシング画像の間で変化する関心の内容を記述することを目的とした、新しく人気のある研究課題である。
既存の手法では、通常、CNN/Transformerを使用して、与えられた画像から視覚的表現を抽出したり、最終的な結果を高めるために補助的なタスクを組み込んだりしている。
これらの問題に対処するために,本研究ではSAM基盤モデルを用いて,地域レベルの表現を抽出し,関心領域の知識をキャプティングフレームワークに注入する方法について検討する。
具体的には、CNN/Transformerモデルを用いて、グローバルレベルの視覚特徴を抽出し、SAM基盤モデルを利用して意味・動作レベルの変化領域を記述し、特別に構築された知識グラフを用いて興味のある対象に関する情報を提供する。
これらの異質な情報のソースは、クロスアテンションを介して融合され、トランスフォーマーデコーダを使用して、観測された変化の最終的な自然言語記述を生成する。
大規模な実験結果から,本手法は複数の広く使用されているベンチマークデータセットに対して,最先端の性能を達成できることが示唆された。
この論文のソースコードはhttps://github.com/Event-AHU/SAM_ChangeCaptioningで公開される。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - Transformed ROIs for Capturing Visual Transformations in Videos [31.88528313257094]
我々は、CNNのプラグイン・アンド・プレイモジュールであるTROIを紹介し、それ以外は空間と時間で区切られている中レベルの特徴表現を推論する。
我々は,大規模データセットである something-Something-V2 と Epic-Kitchens-100 の動作認識結果を得た。
論文 参考訳(メタデータ) (2021-06-06T15:59:53Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Exploring and Distilling Cross-Modal Information for Image Captioning [47.62261144821135]
このような理解には、関連した画像領域に対する視覚的注意と、コヒーレントな特徴に対する意味的注意が必要であると論じる。
トランスフォーマーに基づくグローバル・ローカル情報探索・蒸留手法を提案する。
我々のTransformerベースのモデルでは、COCOテストセットのオフラインCOCO評価においてCIDErスコアが129.3に達し、精度、速度、パラメータ予算の点で著しく効率が良い。
論文 参考訳(メタデータ) (2020-02-28T07:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。