論文の概要: Multi-video Moment Ranking with Multimodal Clue
- arxiv url: http://arxiv.org/abs/2301.13606v1
- Date: Sun, 29 Jan 2023 18:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 16:39:43.333176
- Title: Multi-video Moment Ranking with Multimodal Clue
- Title(参考訳): マルチモーダルクレーンを用いたマルチビデオモーメントランク付け
- Authors: Danyang Hou, Liang Pang, Yanyan Lan, Huawei Shen, Xueqi Cheng
- Abstract要約: VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
- 参考スコア(独自算出の注目度): 69.81533127815884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video corpus moment retrieval~(VCMR) is the task of retrieving a relevant
video moment from a large corpus of untrimmed videos via a natural language
query. State-of-the-art work for VCMR is based on two-stage method. In this
paper, we focus on improving two problems of two-stage method: (1) Moment
prediction bias: The predicted moments for most queries come from the top
retrieved videos, ignoring the possibility that the target moment is in the
bottom retrieved videos, which is caused by the inconsistency of Shared
Normalization during training and inference. (2) Latent key content: Different
modalities of video have different key information for moment localization. To
this end, we propose a two-stage model \textbf{M}ult\textbf{I}-video
ra\textbf{N}king with m\textbf{U}l\textbf{T}imodal clu\textbf{E}~(MINUTE).
MINUTE uses Shared Normalization during both training and inference to rank
candidate moments from multiple videos to solve moment predict bias, making it
more efficient to predict target moment. In addition, Mutilmdaol Clue
Mining~(MCM) of MINUTE can discover key content of different modalities in
video to localize moment more accurately. MINUTE outperforms the baselines on
TVR and DiDeMo datasets, achieving a new state-of-the-art of VCMR. Our code
will be available at GitHub.
- Abstract(参考訳): ビデオコーパスモーメント検索〜(VCMR)は、自然言語クエリを通じて、大量の未編集ビデオコーパスから関連ビデオモーメントを検索するタスクである。
VCMRの最先端の研究は、2段階の手法に基づいている。
本稿では,(1)モーメント予測バイアス: 学習と推論における共有正規化の不整合に起因する,対象モーメントが最下位の検索ビデオに含まれる可能性を無視して,ほとんどのクエリの予測モーメントを上位の検索ビデオから得る。
(2)潜在鍵コンテンツ:ビデオの異なるモダリティは、モーメントの局所化のためのキー情報が異なる。
この目的のために、m\textbf{u}l\textbf{t}imodal clu\textbf{e}~(分)を持つ二段階モデル \textbf{m}ult\textbf{i}-video ra\textbf{n}kingを提案する。
MINUTEはトレーニングと推論の両方で共有正規化を使用して、複数のビデオから候補モーメントをランク付けし、モーメント予測バイアスを解決する。
さらに、MINUTEのMutilmdaol Clue Mining〜(MCM)は、動画中の様々なモードのキー内容を発見し、モーメントをより正確にローカライズすることができる。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回り、VCMRの新たな最先端を実現している。
私たちのコードはgithubで入手できる。
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors [24.858928681280634]
本稿では,MVMR(Massive Videos Moment Retrieval for Faithfulness Evaluation)タスクを提案する。
それは、VMRモデルの忠実さを評価するために、複数のイントラクタを含む巨大なビデオセット内でビデオモーメントを検索することを目的としている。
そこで本研究では, 自動大容量ビデオプール構築フレームワークの提案を行い, 負(ディトラクタ)と正(偽)の動画セットを分類する。
論文 参考訳(メタデータ) (2023-08-15T17:38:55Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval [20.493241098064665]
ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。
モーダル固有のPseudo Query Generation Network (MPGN) を提案する。
MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。
我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
論文 参考訳(メタデータ) (2022-10-23T05:05:18Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。