論文の概要: LD-DETR: Loop Decoder DEtection TRansformer for Video Moment Retrieval and Highlight Detection
- arxiv url: http://arxiv.org/abs/2501.10787v1
- Date: Sat, 18 Jan 2025 14:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:56.643507
- Title: LD-DETR: Loop Decoder DEtection TRansformer for Video Moment Retrieval and Highlight Detection
- Title(参考訳): LD-DETR:ビデオモーメント検索と光検出のためのループデコーダ検出TRansformer
- Authors: Pengcheng Zhao, Zhixian He, Fuwei Zhang, Shujin Lin, Fan Zhou,
- Abstract要約: Video Moment RetrievalとHighlight Detectionは、テキストクエリに基づいて、ビデオ内の対応するコンテンツを見つけることを目的としている。
既存のモデルは、まずコントラスト学習法を使ってビデオとテキストの特徴を整列し、次にマルチモーダル情報を融合して抽出し、最後にトランスフォーマーデコーダを使ってマルチモーダル情報をデコードする。
ビデオモーメント検索とハイライト検出のためのLD-DETRモデルを提案する。
- 参考スコア(独自算出の注目度): 8.24662649122549
- License:
- Abstract: Video Moment Retrieval and Highlight Detection aim to find corresponding content in the video based on a text query. Existing models usually first use contrastive learning methods to align video and text features, then fuse and extract multimodal information, and finally use a Transformer Decoder to decode multimodal information. However, existing methods face several issues: (1) Overlapping semantic information between different samples in the dataset hinders the model's multimodal aligning performance; (2) Existing models are not able to efficiently extract local features of the video; (3) The Transformer Decoder used by the existing model cannot adequately decode multimodal features. To address the above issues, we proposed the LD-DETR model for Video Moment Retrieval and Highlight Detection tasks. Specifically, we first distilled the similarity matrix into the identity matrix to mitigate the impact of overlapping semantic information. Then, we designed a method that enables convolutional layers to extract multimodal local features more efficiently. Finally, we fed the output of the Transformer Decoder back into itself to adequately decode multimodal information. We evaluated LD-DETR on four public benchmarks and conducted extensive experiments to demonstrate the superiority and effectiveness of our approach. Our model outperforms the State-Of-The-Art models on QVHighlight, Charades-STA and TACoS datasets. Our code is available at https://github.com/qingchen239/ld-detr.
- Abstract(参考訳): Video Moment RetrievalとHighlight Detectionは、テキストクエリに基づいて、ビデオ内の対応するコンテンツを見つけることを目的としている。
既存のモデルは、まずコントラスト学習法を使ってビデオとテキストの特徴を整列し、次にマルチモーダル情報を融合して抽出し、最後にトランスフォーマーデコーダを使ってマルチモーダル情報をデコードする。
しかし、既存の手法では、(1)データセット内の異なるサンプル間のセマンティック情報を重畳することで、モデルのマルチモーダル整合性能を損なう、(2)既存のモデルでは、動画の局所的な特徴を効率的に抽出できない、(3)既存のモデルで使われているトランスフォーマーデコーダは、マルチモーダルな特徴を適切にデコードできない、といった問題に直面している。
上記の課題に対処するため,ビデオモーメント検索とハイライト検出のためのLD-DETRモデルを提案した。
具体的には、まず類似度行列を恒等行列に蒸留し、重なり合う意味情報の影響を軽減する。
そこで我々は,畳み込み層がより効率的にマルチモーダルな局所的特徴を抽出できる手法を考案した。
最後に、トランスフォーマーデコーダの出力をそれ自身にフィードバックし、マルチモーダル情報を適切に復号する。
LD-DETRを4つの公開ベンチマークで評価し,提案手法の優位性と有効性を示す広範囲な実験を行った。
我々のモデルは、QVHighlight、Charades-STA、TACoSデータセット上のState-Of-The-Artモデルよりも優れています。
私たちのコードはhttps://github.com/qingchen239/ld-detr.comから入手可能です。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。
大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。
VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文 参考訳(メタデータ) (2024-06-18T03:19:24Z) - GPTSee: Enhancing Moment Retrieval and Highlight Detection via
Description-Based Similarity Features [1.614471032380076]
モーメント検索(MR)とハイライト検出(HD)は、自然言語クエリからビデオ中の関連モーメントとハイライトを特定することを目的としている。
MR&HDの既存の手法はまだ大きな言語モデルと統合されていない。
本稿では,LLMの出力を第2段変換器エンコーダ・デコーダの入力とする2段階モデルを提案する。
論文 参考訳(メタデータ) (2024-03-03T08:24:28Z) - MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer [12.544216587327387]
本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。
提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。
本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:50:19Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval [36.50847375135979]
ビデオデータからのマルチモーダル学習は、人間のアノテーションを使わずに意味のある埋め込みを訓練できるため、近年注目を集めている。
本稿では,ビデオ,音声,テキストなどの複数のモーダル間の情報交換を学習し,それらを結合したマルチモーダル表現に統合するマルチモーダル・モーダル融合トランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2021-12-08T18:14:57Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。