Fugu-MT 論文翻訳(概要): Hierarchical Dual-Change Collaborative Learning for UAV Scene Change Captioning

論文の概要: Hierarchical Dual-Change Collaborative Learning for UAV Scene Change Captioning

arxiv url: http://arxiv.org/abs/2603.12832v1
Date: Fri, 13 Mar 2026 09:33:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:12.028518
Title: Hierarchical Dual-Change Collaborative Learning for UAV Scene Change Captioning
Title（参考訳）: UAVシーン変更キャプションのための階層的デュアルチェンジ協調学習
Authors: Fuhai Chen, Pengpeng Huang, Junwen Wu, Hehong Zhang, Shiping Wang, Xiaoguang Ma, Xuri Ge,
Abstract要約: 本稿では,UAVシーン理解のための新しいタスクであるUAVシーン変更キャプションを提案する。動的空中画像における意味的変化の自然言語記述を生成することを目的としている。
参考スコア（独自算出の注目度）: 20.801550679713568
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a novel task for UAV scene understanding - UAV Scene Change Captioning (UAV-SCC) - which aims to generate natural language descriptions of semantic changes in dynamic aerial imagery captured from a movable viewpoint. Unlike traditional change captioning that mainly describes differences between image pairs captured from a fixed camera viewpoint over time, UAV scene change captioning focuses on image-pair differences resulting from both temporal and spatial scene variations dynamically captured by a moving camera. The key challenge lies in understanding viewpoint-induced scene changes from UAV image pairs that share only partially overlapping scene content due to viewpoint shifts caused by camera rotation, while effectively exploiting the relative orientation between the two images. To this end, we propose a Hierarchical Dual-Change Collaborative Learning (HDC-CL) method for UAV scene change captioning. In particular, a novel transformer, \emph{i.e.} Dynamic Adaptive Layout Transformer (DALT) is designed to adaptively model diverse spatial layouts of the image pair, where the interrelated features derived from the overlapping and non-overlapping regions are learned within the flexible and unified encoding layer. Furthermore, we propose a Hierarchical Cross-modal Orientation Consistency Calibration (HCM-OCC) method to enhance the model's sensitivity to viewpoint shift directions, enabling more accurate change captioning. To facilitate in-depth research on this task, we construct a new benchmark dataset, named UAV-SCC dataset, for UAV scene change captioning. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance on this task. The dataset and code will be publicly released upon acceptance of this paper.
Abstract（参考訳）: 本稿では,UAVシーン理解のための新しいタスクであるUAV-SCC(UAV Scene Change Captioning)を提案する。時間とともに固定されたカメラ視点から撮影された画像対の違いを主に記述する従来の変更キャプションとは異なり、UAVシーンのキャプションは、動いたカメラによって動的にキャプチャされた時間と空間の両方のシーンの変化から生じる画像対の違いに焦点を当てている。重要な課題は、2つの画像間の相対的向きを効果的に利用しながら、カメラ回転による視点シフトによって部分的に重なるシーン内容のみを共有するUAV画像対からの視点誘起シーン変化を理解することである。そこで本研究では,UAVシーン変更キャプションのための階層型デュアルチェンジ協調学習(HDC-CL)手法を提案する。特に、新しい変換器 \emph{i.e.} Dynamic Adaptive Layout Transformer (DALT) は、画像対の多様な空間配置を適応的にモデル化するように設計されており、重なり合う領域と非重なり合う領域の相互関係の特徴は、フレキシブルで統一された符号化層内で学習される。さらに,階層型クロスモーダル指向整合校正法(HCM-OCC)を提案し,視点シフト方向に対するモデルの感度を高め,より正確な変更キャプションを可能にする。本課題の詳細な研究を容易にするため,UAVシーン変更キャプションのためのUAV-SCCデータセットという新しいベンチマークデータセットを構築した。この課題に対して,提案手法が最先端性能を実現することを実証した。データセットとコードは、この記事の受理時に公開される。

関連論文リスト

A 2D Semantic-Aware Position Encoding for Vision Transformers [32.86183384267028]
ビジョントランスフォーマーは、コンピュータビジョンタスクにおいて、長距離依存と自己注意を通してコンテキスト関係をキャプチャする能力により、大きな利点を示してきた。既存の位置符号化技術は、主に自然言語処理から借用されているが、画像パッチ間のセマンティック・アウェアな位置関係を効果的に捉えられなかった。絶対位置符号化(英語版)や相対位置符号化(英語版)のような伝統的なアプローチは、主に1次元線形位置関係(しばしば遠方でも文脈的に関連付けられたパッチ間の意味的類似性)に焦点を当てている。
論文参考訳（メタデータ） (2025-05-14T15:17:34Z)
Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。 KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文参考訳（メタデータ） (2024-09-19T09:33:33Z)
Semantic-CC: Boosting Remote Sensing Image Change Captioning via Foundational Knowledge and Semantic Guidance [19.663899648983417]
本稿では,基礎知識と意味指導に基づく新しい変更キャプション(CC)手法を提案する。提案手法を LEVIR-CC および LEVIR-CD データセット上で検証する。
論文参考訳（メタデータ） (2024-07-19T05:07:41Z)
Image Captioning via Dynamic Path Customization [100.15412641586525]
画像キャプションのための新しい動的トランスフォーマーネットワーク(DTNet)を提案する。提案するDTNetの有効性を検証するため,MS-COCOデータセットの広範な実験を行い,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-06-01T07:23:21Z)
A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual Geo-Localization [2.1462492411694756]
本稿では,無人航空機(UAV)の視覚的ジオローカライゼーションの課題について述べる。部分レベルの表現は、画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、UAVの視覚的ジオローカライゼーションには、パートマッチングが不可欠である。画像中の最も代表的な意味論として部品を考慮に入れた変換器に基づく適応的意味的アグリゲーション手法を提案する。
論文参考訳（メタデータ） (2024-01-03T06:58:52Z)
Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-06T14:39:54Z)
Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文参考訳（メタデータ） (2022-08-19T11:21:59Z)
Refign: Align and Refine for Adaptation of Semantic Segmentation to Adverse Conditions [78.71745819446176]
Refignは、ドメイン間の通信を利用する自己学習ベースのUDAメソッドへの汎用的な拡張である。 Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。このアプローチでは、追加のトレーニングパラメータや、トレーニングのみの計算オーバーヘッドの最小化は導入されず、任意の自己学習ベースのUDAメソッドを改善するためにドロップイン拡張として使用することができる。
論文参考訳（メタデータ） (2022-07-14T11:30:38Z)
Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。 VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文参考訳（メタデータ） (2021-10-16T14:08:20Z)
StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文参考訳（メタデータ） (2021-05-30T15:57:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。