論文の概要: UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval
and Highlight Detection
- arxiv url: http://arxiv.org/abs/2203.12745v1
- Date: Wed, 23 Mar 2022 22:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 13:50:43.877406
- Title: UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval
and Highlight Detection
- Title(参考訳): UMT:ジョイントビデオモーメント検索と光検出のための統一マルチモーダルトランス
- Authors: Ye Liu, Siyuan Li, Yang Wu, Chang Wen Chen, Ying Shan, Xiaohu Qie
- Abstract要約: 我々は、Unified Multi-modal Transformers (UMT) という、最初の統一されたフレームワークを提示する。
UMTはそのような共同最適化を実現することができるが、個々の問題を解決するために容易に分解できる。
我々の知る限り、これは共同最適化と個別モーメント検索のいずれにもマルチモーダル(視覚)学習を統合する最初のスキームである。
- 参考スコア(独自算出の注目度): 46.25856560381347
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Finding relevant moments and highlights in videos according to natural
language queries is a natural and highly valuable common need in the current
video content explosion era. Nevertheless, jointly conducting moment retrieval
and highlight detection is an emerging research topic, even though its
component problems and some related tasks have already been studied for a
while. In this paper, we present the first unified framework, named Unified
Multi-modal Transformers (UMT), capable of realizing such joint optimization
while can also be easily degenerated for solving individual problems. As far as
we are aware, this is the first scheme to integrate multi-modal (visual-audio)
learning for either joint optimization or the individual moment retrieval task,
and tackles moment retrieval as a keypoint detection problem using a novel
query generator and query decoder. Extensive comparisons with existing methods
and ablation studies on QVHighlights, Charades-STA, YouTube Highlights, and
TVSum datasets demonstrate the effectiveness, superiority, and flexibility of
the proposed method under various settings. Source code and pre-trained models
are available at https://github.com/TencentARC/UMT.
- Abstract(参考訳): 自然言語クエリによるビデオの関連モーメントやハイライトを見つけることは、現在のビデオコンテンツの爆発の時代において、自然で非常に価値のある共通のニーズである。
それにもかかわらず、そのコンポーネント問題といくつかの関連するタスクがすでに研究されているにもかかわらず、共同でモーメント検索とハイライト検出を行うことが、新たな研究トピックである。
本稿では,統一型マルチモーダルトランス (UMT) を初めて提案し,このような共同最適化を実現するとともに,個別の問題を解く上で容易にデジェクトすることができることを示す。
私たちが認識している限り、これは、共同最適化または個別モーメント検索タスクのためにマルチモーダル(ビジュアルオーディオ)学習を統合し、新しいクエリジェネレータとクエリデコーダを使用して、キーポイント検出問題としてモーメント検索に取り組む最初のスキームである。
QVHighlights, Charades-STA, YouTube Highlights, TVSum の既存手法との比較により, 提案手法の有効性, 優位性, 柔軟性を示す。
ソースコードと事前訓練されたモデルはhttps://github.com/TencentARC/UMT.comで入手できる。
関連論文リスト
- VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Joint Moment Retrieval and Highlight Detection Via Natural Language
Queries [0.0]
本稿では,自然言語クエリに基づく共同動画要約とハイライト検出のための新しい手法を提案する。
このアプローチでは、視覚とオーディオの両方のキューを使用して、ユーザの自然言語クエリにマッチして、ビデオから最も関連性があり興味深い瞬間を検索する。
提案手法では、視覚変換器(ViT)で使用される複数の手法を用いて、トランスフォーマーライクなエンコーダデコーダモデルを作成する。
論文 参考訳(メタデータ) (2023-05-08T18:00:33Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z) - Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video
Parsing [48.87278703876147]
オーディオ・ヴィジュアル・ビデオ解析と呼ばれる新しい問題は、ビデオを時間的なイベントセグメントにパースし、それらを可聴性、可視性、あるいはその両方にラベル付けすることを目指している。
本稿では,一助的・横断的時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。
実験結果から,映像レベルが弱いラベルであっても,難易度の高い映像解析が可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-21T01:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。