Imagine Before Concentration: Diffusion-Guided Registers Enhance Partially Relevant Video Retrieval
Abstractの概要
本論文は、テキストクエリが未トリミング動画の一部分のみを記述する「部分関連動画検索(PRVR)」に取り組んでおり、この課題では誤った局所的マッチングが検索精度を損なう要因となる。提案手法DreamPRVRは粗から細へ(coarse-to-fine)の戦略を採用し、まず動画中心の確率分布から初期化されたテキスト教師付き打ち切り拡散プロセスを用いて各動画のグローバルなセマンティックレジスタを生成し、次にそのレジスタをフレームレベルおよびクリップレベルのトークンとレジスタ拡張ガウス注意機構を通じて融合することで、精密なクロスモーダルマッチングを改善する。さらに、クエリ多様性損失とクエリ類似度保存損失を組み合わせたテキスト意味構造学習を導入し、同一動画のクエリ間の意味的一貫性を維持しつつ異なる動画のクエリ間の分離性を確保する。テキスト摂動サンプラーがクエリの不確実性をモデル化し、レジスタ生成の教師信号を提供する。
新規性
主要な新規性は、部分関連動画検索において明示的なグローバルコンテキストとして拡散生成レジスタトークンを使用する点にあり、局所的なクリップマッチングや学習時のみの正則化に依存する従来手法を置き換えるものである。本手法はこれを構造化されたテキスト潜在空間(クエリ類似度保存損失および多様性損失による)と動画中心の確率的初期化と組み合わせ、学習時と推論時の両方でグローバルな文脈的手がかりを提供する軽量な打ち切り拡散設計を実現している。
成果
ActivityNet Captions、Charades-STA、TVRの3つのベンチマークにおいて、DreamPRVRは比較された全手法の中で最高のSumR値(それぞれ156.1、80.0、193.1)を達成した(表1)。アブレーション研究(表3)では、レジスタ、拡散リファインメント、動画中心の初期化、テキスト意味構造学習のいずれかを除去すると、3つのベンチマーク全てで検索性能が一貫して低下することが示された。Charades-STAにおける効率性分析(表2)では、HLFormerなどの強力なベースラインと比較して追加のオーバーヘッドは控えめであり、検索時間も同程度であることが示された。
論文の注目点
- DreamPRVRは、打ち切り拡散プロセスを通じてまず包括的な動画コンテキストレジスタを生成し、それを用いて局所的なフレームレベル・クリップレベルのクロスモーダルアラインメントを強化する粗から細への(coarse-to-fine)パイプラインでPRVRに取り組んでいる。
- レジスタ生成は、テキスト意味構造学習(クエリ多様性損失およびクエリ類似度保存損失)、動画中心の初期化のための確率的変分サンプラー、反復的拡散レジスタ推定器を組み合わせており、生成されたレジスタはレジスタ拡張ガウス注意機構を通じて動画トークンに融合される。
- 3つのベンチマークでの実験により最先端のSumRスコアが示され、アブレーション研究ではレジスタ、拡散リファインメント、動画中心の初期化、テキスト構造学習の各コンポーネントが、許容可能な計算オーバーヘッドを維持しつつ検索性能向上に寄与することが確認された。