論文の概要: MH-DETR: Video Moment and Highlight Detection with Cross-modal
Transformer
- arxiv url: http://arxiv.org/abs/2305.00355v1
- Date: Sat, 29 Apr 2023 22:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 15:43:49.612726
- Title: MH-DETR: Video Moment and Highlight Detection with Cross-modal
Transformer
- Title(参考訳): MH-DETR:クロスモーダルトランスを用いたビデオモーメントと光検出
- Authors: Yifang Xu, Yunzhuo Sun, Yang Li, Yilei Shi, Xiaoxiang Zhu, Sidan Du
- Abstract要約: 映像モーメントとハイライト検出(MHD)に適したMH-DETR(Moment and Highlight Detection Transformer)を提案する。
単一モードエンコーダ内にシンプルだが効率的なプーリング演算子を導入し,グローバルなモード内コンテキストをキャプチャする。
時間的に整列したクロスモーダルな特徴を得るために,エンコーダとデコーダ間のプラグ・アンド・プレイ・クロスモーダルな相互作用モジュールを設計する。
- 参考スコア(独自算出の注目度): 17.29632719667594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing demand for video understanding, video moment and
highlight detection (MHD) has emerged as a critical research topic. MHD aims to
localize all moments and predict clip-wise saliency scores simultaneously.
Despite progress made by existing DETR-based methods, we observe that these
methods coarsely fuse features from different modalities, which weakens the
temporal intra-modal context and results in insufficient cross-modal
interaction. To address this issue, we propose MH-DETR (Moment and Highlight
Detection Transformer) tailored for MHD. Specifically, we introduce a simple
yet efficient pooling operator within the uni-modal encoder to capture global
intra-modal context. Moreover, to obtain temporally aligned cross-modal
features, we design a plug-and-play cross-modal interaction module between the
encoder and decoder, seamlessly integrating visual and textual features.
Comprehensive experiments on QVHighlights, Charades-STA, Activity-Net, and
TVSum datasets show that MH-DETR outperforms existing state-of-the-art methods,
demonstrating its effectiveness and superiority. Our code is available at
https://github.com/YoucanBaby/MH-DETR.
- Abstract(参考訳): ビデオ理解の需要が高まり、ビデオモーメントとハイライト検出(MHD)が重要な研究トピックとして浮上している。
MHDはすべての瞬間をローカライズし、クリップワイドのサリエンシスコアを同時に予測することを目的としている。
既存のDETRに基づく手法の進歩にもかかわらず、これらの手法は時間的モード内コンテキストを弱め、結果としてモーダル間相互作用が不十分となる様々なモードから粗い特徴を融合する。
本稿では,MHDに適したMH-DETR(Moment and Highlight Detection Transformer)を提案する。
具体的には,ユニモーダルエンコーダ内に,グローバル・イントラモーダル・コンテキストをキャプチャする簡易かつ効率的なプーリング演算子を導入する。
さらに、時間的に調整されたクロスモーダル特徴を得るために、エンコーダとデコーダ間のプラグ・アンド・プレイクロスモーダル相互作用モジュールを設計し、視覚的な特徴とテキスト的な特徴をシームレスに統合する。
QVHighlights、Charades-STA、Activity-Net、TVSumデータセットに関する総合的な実験は、MH-DETRが既存の最先端手法よりも優れており、その効果と優位性を示していることを示している。
私たちのコードはhttps://github.com/YoucanBaby/MH-DETRで利用可能です。
関連論文リスト
- Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。
MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。
派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文 参考訳(メタデータ) (2025-01-14T03:15:46Z) - DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and
Highlight Detection [9.032057312774564]
自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD)は、非常に関連性の高い2つのタスクである。
MRとHDを共同で解くために、DETRベースのネットワークの構築にいくつかの方法が注がれている。
MRとHDの相反性を探索するDETR(TR-DETR)に基づくタスク相互変換器を提案する。
論文 参考訳(メタデータ) (2024-01-04T14:55:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - MRTNet: Multi-Resolution Temporal Network for Video Sentence Grounding [70.82093938170051]
本稿では,マルチレゾリューション・テンポラルビデオ文グラウンドティングネットワーク MRTNet を提案する。
MRTNetはマルチモーダル機能エンコーダ、Multi-Resolution Temporal (MRT)モジュール、予測モジュールで構成される。
私たちのMRTモジュールはホットプラグ可能で、任意のアンカーフリーモデルにシームレスに組み込むことができます。
論文 参考訳(メタデータ) (2022-12-26T13:48:05Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。