論文の概要: Improving Video Corpus Moment Retrieval with Partial Relevance
Enhancement
- arxiv url: http://arxiv.org/abs/2402.13576v1
- Date: Wed, 21 Feb 2024 07:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:46:30.347344
- Title: Improving Video Corpus Moment Retrieval with Partial Relevance
Enhancement
- Title(参考訳): 部分帰属強化によるビデオコーパスモーメント検索の改善
- Authors: Danyang Hou and Liang Pang and Huawei Shen and Xueqi Cheng
- Abstract要約: ビデオコーパスモーメント検索(VCMR)は、未検索ビデオの大規模なコーパスから関連モーメントを検索するための新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,異なるモダリティに適したクエリ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
- 参考スコア(独自算出の注目度): 79.48249428428802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video corpus moment retrieval~(VCMR) is a new video retrieval task aimed at
retrieving a relevant moment from a large corpus of untrimmed videos using a
natural language text as query. The relevance between the video and query is
partial, mainly evident in two aspects: (1) Scope: The untrimmed video contains
information-rich frames, and not all are relevant to the query. Strong
correlation is typically observed only within the relevant moment, emphasizing
the importance of capturing key content. (2) Modality: The relevance of query
to different modalities varies; action descriptions align more with the visual
elements, while character conversations are more related to textual
information. Recognizing and addressing these modality-specific nuances is
crucial for effective retrieval in VCMR. However, existing methods often treat
all video contents equally, leading to sub-optimal moment retrieval. We argue
that effectively capturing the partial relevance between the query and video is
essential for the VCMR task. To this end, we propose a Partial Relevance
Enhanced Model~(PREM) to improve VCMR. VCMR involves two sub-tasks: video
retrieval and moment localization. To align with their distinct objectives, we
implement specialized partial relevance enhancement strategies. For video
retrieval, we introduce a multi-modal collaborative video retriever, generating
distinct query representations tailored for different modalities by
modality-specific pooling, ensuring a more effective match. For moment
localization, we propose the focus-then-fuse moment localizer, utilizing
modality-specific gates to capture essential content, followed by fusing
multi-modal information for moment localization. Experimental results on TVR
and DiDeMo datasets show that the proposed model outperforms the baselines,
achieving a new state-of-the-art of VCMR.
- Abstract(参考訳): ビデオコーパスモーメント検索~(VCMR)は、自然言語を問合せとして、大量の未編集ビデオコーパスから関連モーメントを検索するための新しいビデオ検索タスクである。
ビデオとクエリの関連性は,主に2つの側面で明らかである。(1)スコープ: 未トリミングビデオは情報豊富なフレームを含み,すべてクエリに関連するものではない。
強い相関は典型的には関連するモーメント内でのみ観察され、キーコンテンツをキャプチャすることの重要性を強調している。
2) モダリティ: 異なるモダリティに対するクエリの関連は様々であり, 動作記述は視覚的要素とより一致し, 文字会話はテキスト情報とより関連している。
これらのモダリティ固有のニュアンスを認識し、対処することは、VCMRの効果的な検索に不可欠である。
しかし、既存の手法では全ての動画コンテンツを等しく扱うことが多く、最適なモーメント検索に繋がる。
vcmrタスクでは,クエリとビデオ間の部分的関連性を効果的に捉えることが不可欠である。
本稿では,VCMRを改善するための部分関連拡張モデル~(PREM)を提案する。
VCMRにはビデオ検索とモーメントローカライゼーションという2つのサブタスクがある。
個別の目的に合わせるために,特定部分対応強化戦略を実装した。
ビデオ検索では,モダリティ固有のプーリングによって異なるモダリティに適したクエリ表現を生成し,より効果的なマッチングを実現するマルチモダリティ協調ビデオ検索器を導入する。
そこで本研究では,モーダリティ固有のゲートを用いたモーメントローカライザの提案と,モーメントローカライゼーションのためのマルチモーダル情報を融合したモーメントローカライザを提案する。
TVRとDiDeMoデータセットの実験結果は、提案モデルがベースラインを上回っ、VCMRの新たな最先端を実現していることを示している。
関連論文リスト
- Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - Semantic Video Moments Retrieval at Scale: A New Task and a Baseline [6.997674465889922]
Semantic Video Moments Retrieval at Scale (SVMR)は、関連ビデオの検索とビデオクリップの再ローカライズを目的としている。
これらの課題に対処するため、我々は候補ビデオ検索の2段階ベースラインソリューションを提案し、それに続いて、新しいアテンションベースのクエリ参照セマンティックアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T22:46:22Z) - CONQUER: Contextual Query-aware Ranking for Video Corpus Moment
Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。
本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。
クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文 参考訳(メタデータ) (2021-09-21T08:07:27Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。