論文の概要: MSAM: Multi-Semantic Adaptive Mining for Cross-Modal Drone Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2510.15470v1
- Date: Fri, 17 Oct 2025 09:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.557745
- Title: MSAM: Multi-Semantic Adaptive Mining for Cross-Modal Drone Video-Text Retrieval
- Title(参考訳): MSAM:マルチセマンティック・アダプティブ・マイニング
- Authors: Jinghao Huang, Yaxiong Chen, Ganchao Liu,
- Abstract要約: ドローンビデオは、オーバーヘッドの視点、強い構造的均一性、ターゲットの組み合わせの多様な意味表現を特徴としている。
マルチセマンティック・アダプティブ・マイニング(MSAM)という新しい手法を提案する。
MSAMはフレーム間の動的変化を取り入れ、特定のシーン領域からリッチな意味情報を抽出する。
- 参考スコア(独自算出の注目度): 10.526794142255492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of drone technology, the volume of video data increases rapidly, creating an urgent need for efficient semantic retrieval. We are the first to systematically propose and study the drone video-text retrieval (DVTR) task. Drone videos feature overhead perspectives, strong structural homogeneity, and diverse semantic expressions of target combinations, which challenge existing cross-modal methods designed for ground-level views in effectively modeling their characteristics. Therefore, dedicated retrieval mechanisms tailored for drone scenarios are necessary. To address this issue, we propose a novel approach called Multi-Semantic Adaptive Mining (MSAM). MSAM introduces a multi-semantic adaptive learning mechanism, which incorporates dynamic changes between frames and extracts rich semantic information from specific scene regions, thereby enhancing the deep understanding and reasoning of drone video content. This method relies on fine-grained interactions between words and drone video frames, integrating an adaptive semantic construction module, a distribution-driven semantic learning term and a diversity semantic term to deepen the interaction between text and drone video modalities and improve the robustness of feature representation. To reduce the interference of complex backgrounds in drone videos, we introduce a cross-modal interactive feature fusion pooling mechanism that focuses on feature extraction and matching in target regions, minimizing noise effects. Extensive experiments on two self-constructed drone video-text datasets show that MSAM outperforms other existing methods in the drone video-text retrieval task. The source code and dataset will be made publicly available.
- Abstract(参考訳): ドローン技術の進歩により、ビデオデータの量は急速に増加し、効率的なセマンティック検索が緊急に必要となる。
我々は,ドローンビデオテキスト検索(DVTR)タスクを体系的に提案し,研究した最初の人物である。
ドローンビデオは、オーバヘッドの視点、強い構造的均質性、ターゲットの組み合わせの多彩な意味表現を備えており、その特徴を効果的にモデル化する上で、地上レベルのビュー用に設計された既存のクロスモーダル手法に挑戦する。
したがって、ドローンのシナリオに適した専用検索機構が必要である。
本稿では,MSAM(Multi-Semantic Adaptive Mining)と呼ばれる新しい手法を提案する。
MSAMは、フレーム間の動的変化を取り入れ、特定のシーン領域からリッチなセマンティック情報を抽出し、ドローン映像の内容の深い理解と推論を強化するマルチセマンティック適応学習機構を導入する。
本手法は, 単語とドローンビデオフレーム間のきめ細かいインタラクションに依存し, 適応型セマンティック構築モジュール, 分布駆動型セマンティック学習用語, 多様性セマンティック用語を統合し, テキストとドローンビデオの相互作用を深め, 特徴表現の堅牢性を向上させる。
ドローンビデオにおける複雑な背景の干渉を低減するため、ターゲット領域の特徴抽出とマッチングに着目し、ノイズ効果を最小限に抑える、モード間対話型機能融合プール機構を導入する。
2つの自己構築型ドローンビデオテキストデータセットに対する大規模な実験は、MSAMがドローンビデオテキスト検索タスクにおける既存の方法よりも優れていることを示している。
ソースコードとデータセットは一般公開される予定だ。
関連論文リスト
- TCMA: Text-Conditioned Multi-granularity Alignment for Drone Cross-Modal Text-Video Retrieval [5.527227553079524]
無人航空機(UAV)は、リアルタイムで高解像度のデータ収集のための強力なプラットフォームとなっている。
これらのビデオから関連コンテンツの効率的な検索は、都市管理、緊急対応、セキュリティ、災害救助の応用に不可欠である。
我々は,2,864本の動画と14,320本の細粒度,セマンティックなキャプションを含むDVTMDデータセットを構築した。
論文 参考訳(メタデータ) (2025-10-11T11:38:01Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - FitPro: A Zero-Shot Framework for Interactive Text-based Pedestrian Retrieval in Open World [13.089848592467675]
FitProはオープンワールドのインタラクティブなTPRフレームワークで、セマンティック理解とクロスシーン適応性を強化している。
FitProには、FCD(Feature Contrastive Decoding)、ISM(Incrmental Semantic Mining)、QHR(Query-aware Hierarchical Retrieval)の3つの革新的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-09-20T12:55:18Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval [23.75587275795415]
本稿では,ビデオ内のさまざまなコンテキストを一定数のプロトタイプにエンコードするプロトタイプPRVRフレームワークを提案する。
ビデオコンテキストを正確に符号化しながら、テキストクエリを介してプロトタイプを検索できるように、クロスモーダルおよびユニモーダル再構成タスクを実装した。
論文 参考訳(メタデータ) (2025-04-17T15:43:29Z) - Redundancy-aware Transformer for Video Question Answering [71.98116071679065]
本稿では,ビデオQAを冗長性に認識してモデル化することを目的とした,トランスフォーマーに基づく新しいアーキテクチャを提案する。
隣接するフレームの冗長性に対処するために,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入する。
クロスモーダルな冗長性については、新たな適応サンプリングを融合モジュールに装備し、視覚と言語間の相互作用を明確に区別する。
論文 参考訳(メタデータ) (2023-08-07T03:16:24Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。