論文の概要: TCMA: Text-Conditioned Multi-granularity Alignment for Drone Cross-Modal Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2510.10180v1
- Date: Sat, 11 Oct 2025 11:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.828333
- Title: TCMA: Text-Conditioned Multi-granularity Alignment for Drone Cross-Modal Text-Video Retrieval
- Title(参考訳): TCMA: ドローンクロスモーダルテキストビデオ検索のためのテキストコンディション多言語アライメント
- Authors: Zixu Zhao, Yang Zhan,
- Abstract要約: 無人航空機(UAV)は、リアルタイムで高解像度のデータ収集のための強力なプラットフォームとなっている。
これらのビデオから関連コンテンツの効率的な検索は、都市管理、緊急対応、セキュリティ、災害救助の応用に不可欠である。
我々は,2,864本の動画と14,320本の細粒度,セマンティックなキャプションを含むDVTMDデータセットを構築した。
- 参考スコア(独自算出の注目度): 5.527227553079524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicles (UAVs) have become powerful platforms for real-time, high-resolution data collection, producing massive volumes of aerial videos. Efficient retrieval of relevant content from these videos is crucial for applications in urban management, emergency response, security, and disaster relief. While text-video retrieval has advanced in natural video domains, the UAV domain remains underexplored due to limitations in existing datasets, such as coarse and redundant captions. Thus, in this work, we construct the Drone Video-Text Match Dataset (DVTMD), which contains 2,864 videos and 14,320 fine-grained, semantically diverse captions. The annotations capture multiple complementary aspects, including human actions, objects, background settings, environmental conditions, and visual style, thereby enhancing text-video correspondence and reducing redundancy. Building on this dataset, we propose the Text-Conditioned Multi-granularity Alignment (TCMA) framework, which integrates global video-sentence alignment, sentence-guided frame aggregation, and word-guided patch alignment. To further refine local alignment, we design a Word and Patch Selection module that filters irrelevant content, as well as a Text-Adaptive Dynamic Temperature Mechanism that adapts attention sharpness to text type. Extensive experiments on DVTMD and CapERA establish the first complete benchmark for drone text-video retrieval. Our TCMA achieves state-of-the-art performance, including 45.5% R@1 in text-to-video and 42.8% R@1 in video-to-text retrieval, demonstrating the effectiveness of our dataset and method. The code and dataset will be released.
- Abstract(参考訳): 無人航空機(UAV)は、リアルタイムで高解像度のデータ収集のための強力なプラットフォームとなり、大量の空中ビデオを生み出している。
これらのビデオから関連コンテンツの効率的な検索は、都市管理、緊急対応、セキュリティ、災害救助の応用に不可欠である。
自然なビデオ領域ではテキストビデオ検索が進んでいるが、UAVドメインは、粗いキャプションや冗長なキャプションなどの既存のデータセットに制限があるため、未探索のままである。
そこで本研究では,2,864本のビデオと14,320本の細粒度,意味的に多様なキャプションを含むDVTMDを構築した。
アノテーションは、ヒューマンアクション、オブジェクト、背景設定、環境条件、視覚スタイルを含む複数の補完的な側面をキャプチャし、テキストとビデオの対応性を高め、冗長性を低下させる。
本データセットに基づいて,大域的ビデオ文アライメント,文誘導フレームアグリゲーション,単語誘導パッチアライメントを統合したテキスト定義多粒度アライメント(TCMA)フレームワークを提案する。
局所的なアライメントをさらに改善するために、関係のないコンテンツをフィルタリングするWord and Patch Selectionモジュールと、テキストタイプに注意を向けるテキスト適応型動的温度メカニズムを設計する。
DVTMDとCapERAの大規模な実験により、ドローンによるテキストビデオ検索のための最初の完全なベンチマークが確立された。
TCMAは、45.5%のR@1、42.8%のR@1を含む最先端のパフォーマンスを達成し、我々のデータセットと手法の有効性を実証した。
コードとデータセットがリリースされる。
関連論文リスト
- Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文 参考訳(メタデータ) (2025-08-19T17:59:39Z) - VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。
微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。
VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-11-22T18:31:47Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。