論文の概要: Semantic Video Moments Retrieval at Scale: A New Task and a Baseline
- arxiv url: http://arxiv.org/abs/2210.08389v1
- Date: Sat, 15 Oct 2022 22:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:10:14.131975
- Title: Semantic Video Moments Retrieval at Scale: A New Task and a Baseline
- Title(参考訳): 意味的ビデオモーメントの大規模検索:新しいタスクとベースライン
- Authors: Na Li
- Abstract要約: Semantic Video Moments Retrieval at Scale (SVMR)は、関連ビデオの検索とビデオクリップの再ローカライズを目的としている。
これらの課題に対処するため、我々は候補ビデオ検索の2段階ベースラインソリューションを提案し、それに続いて、新しいアテンションベースのクエリ参照セマンティックアライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.997674465889922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the increasing need of saving search effort by obtaining
relevant video clips instead of whole videos, we propose a new task, named
Semantic Video Moments Retrieval at scale (SVMR), which aims at finding
relevant videos coupled with re-localizing the video clips in them. Instead of
a simple combination of video retrieval and video re-localization, our task is
more challenging because of several essential aspects. In the 1st stage, our
SVMR should take into account the fact that: 1) a positive candidate long video
can contain plenty of irrelevant clips which are also semantically meaningful.
2) a long video can be positive to two totally different query clips if it
contains clips relevant to two queries. The 2nd re-localization stage also
exhibits different assumptions from existing video re-localization tasks, which
hold an assumption that the reference video must contain semantically similar
segments corresponding to the query clip. Instead, in our scenario, the
retrieved long video can be a false positive one due to the inaccuracy of the
first stage. To address these challenges, we propose our two-stage baseline
solution of candidate videos retrieval followed by a novel attention-based
query-reference semantically alignment framework to re-localize target clips
from candidate videos. Furthermore, we build two more appropriate benchmark
datasets from the off-the-shelf ActivityNet-1.3 and HACS for a thorough
evaluation of SVMR models. Extensive experiments are carried out to show that
our solution outperforms several reference solutions.
- Abstract(参考訳): ビデオ全体の代わりに関連ビデオクリップを取得することで検索作業の節約の必要性が高まっていることから,ビデオクリップの再ローカライズに伴う関連ビデオの検索を目的とした,Semantic Video Moments Retrieval at Scale (SVMR)というタスクを提案する。
ビデオ検索とビデオ再ローカライゼーションの単純な組み合わせではなく、いくつかの重要な側面から、我々のタスクはより困難である。
第1段階では、SVMRはその事実を考慮しなければなりません。
1)ポジティブな候補の長いビデオには、意味的に意味のある無関係なクリップがたくさん含まれます。
2)2つのクエリに関連するクリップを含む場合,長いビデオは2つのまったく異なるクエリクリップに対して陽性となる。
第2の再ローカライズステージは、既存のビデオ再ローカライズタスクとは異なる仮定を示しており、参照ビデオはクエリクリップに対応する意味的に類似したセグメントを含む必要があると仮定している。
その代わり、われわれのシナリオでは、検索したロングビデオは第1ステージの不正確さのため、偽陽性となる可能性がある。
これらの課題に対処するために,我々は,候補ビデオからのターゲットクリップを再ローカライズするための,新たな注意に基づくクエリ参照セマンティクスアライメントフレームワークを提案する。
さらに,市販のActivityNet-1.3とHACSからより適切なベンチマークデータセットを構築し,SVMRモデルの徹底的な評価を行う。
提案手法がいくつかの参照解よりも優れていることを示すために,広範な実験を行った。
関連論文リスト
- Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Partially Relevant Video Retrieval [39.747235541498135]
PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。
PRVRは、未トリミングビデオの大規模なコレクションから、部分的に関連のあるビデオを取得することを目的としている。
PRVRをマルチインスタンス学習(MIL)問題として定式化し、ビデオクリップの袋とビデオフレームの袋とを同時に見る。
論文 参考訳(メタデータ) (2022-08-26T09:07:16Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。