論文の概要: Query-Dependent Video Representation for Moment Retrieval and Highlight
Detection
- arxiv url: http://arxiv.org/abs/2303.13874v1
- Date: Fri, 24 Mar 2023 09:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:07:18.502872
- Title: Query-Dependent Video Representation for Moment Retrieval and Highlight
Detection
- Title(参考訳): モーメント検索とハイライト検出のためのクエリ依存ビデオ表現
- Authors: WonJun Moon, Sangeek Hyun, SangUk Park, Dongchan Park, Jae-Pil Heo
- Abstract要約: MR/HDの主な目的は、あるテキストクエリに対して、モーメントをローカライズし、クリップワイドアコーディネートレベル、すなわち、サリエンシスコアを推定することである。
最近のトランスフォーマーベースのモデルは、与えられたクエリの情報を完全に活用していない。
本稿ではMR/HDに適した検出変換器であるQuery-Dependent DETR(QD-DETR)を紹介する。
- 参考スコア(独自算出の注目度): 8.74967598360817
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, video moment retrieval and highlight detection (MR/HD) are being
spotlighted as the demand for video understanding is drastically increased. The
key objective of MR/HD is to localize the moment and estimate clip-wise
accordance level, i.e., saliency score, to the given text query. Although the
recent transformer-based models brought some advances, we found that these
methods do not fully exploit the information of a given query. For example, the
relevance between text query and video contents is sometimes neglected when
predicting the moment and its saliency. To tackle this issue, we introduce
Query-Dependent DETR (QD-DETR), a detection transformer tailored for MR/HD. As
we observe the insignificant role of a given query in transformer
architectures, our encoding module starts with cross-attention layers to
explicitly inject the context of text query into video representation. Then, to
enhance the model's capability of exploiting the query information, we
manipulate the video-query pairs to produce irrelevant pairs. Such negative
(irrelevant) video-query pairs are trained to yield low saliency scores, which
in turn, encourages the model to estimate precise accordance between
query-video pairs. Lastly, we present an input-adaptive saliency predictor
which adaptively defines the criterion of saliency scores for the given
video-query pairs. Our extensive studies verify the importance of building the
query-dependent representation for MR/HD. Specifically, QD-DETR outperforms
state-of-the-art methods on QVHighlights, TVSum, and Charades-STA datasets.
Codes are available at github.com/wjun0830/QD-DETR.
- Abstract(参考訳): 近年,映像理解の需要が大幅に増加し,映像モーメント検索とハイライト検出(MR/HD)が注目されている。
MR/HDの主な目的は、与えられたテキストクエリに対して、モーメントをローカライズし、クリップワイドのレベルを推定することである。
最近のトランスフォーマーベースモデルにはいくつかの進歩があったが、これらの手法が与えられたクエリの情報を完全に活用していないことがわかった。
例えば、テキストクエリとビデオコンテンツの関連性は、モーメントとそのサルジェンシーを予測する際に無視されることがある。
本稿では,MR/HDに適した検出変換器であるQuery-Dependent DETR(QD-DETR)を紹介する。
トランスフォーマーアーキテクチャにおいて、与えられたクエリの重要でない役割を観察するため、エンコーディングモジュールは、テキストクエリのコンテキストをビデオ表現に明示的に注入するために、クロスアテンション層から始まります。
そして,クエリ情報を活用するモデルの性能を高めるために,ビデオクエリペアを操作して無関係なペアを生成する。
このような負の(無関係な)ビデオクエリペアは、低いサリエンシースコアを得るために訓練され、その結果、クエリとビデオのペア間の正確な一致をモデルが推定することを奨励する。
最後に,与えられたビデオクエリ対に対するサリエンシースコアの基準を適応的に定義する入力適応サリエンシー予測器を提案する。
本研究は,mr/hdにおけるクエリ依存表現の構築の重要性を検証する。
具体的には、QD-DETRはQVHighlights、TVSum、Charades-STAデータセットで最先端の手法より優れている。
コードはgithub.com/wjun0830/QD-DETRで入手できる。
関連論文リスト
- QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。
本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:56:42Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Background-aware Moment Detection for Video Moment Retrieval [19.11524416308641]
ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定する。
あいまいさのため、クエリは対応するモーメントの関連する詳細を完全にカバーしていない。
背景認識型モーメント検出変換器(BM-DETR)を提案する。
本モデルでは,正の問合せと負の問合せの相補性から,各フレームの連成確率から目標モーメントを予測することを学ぶ。
論文 参考訳(メタデータ) (2023-06-05T09:26:33Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。