R^3: Composed Video Retrieval via Reasoning-Guided Recalling and Re-ranking
Abstractの概要
本論文では、ソース動画とテキストの編集指示に基づいてギャラリーからターゲット動画を検索する、ゼロショットの合成動画検索(composed video retrieval)について研究している。著者らは、標準的な埋め込み検索は効率的であるものの編集の暗黙の結果を見逃す可能性があり、一方で徹底的なペアごとの再ランキングは大規模なギャラリーにとっては計算コストが高すぎると主張している。そこで、最初にターゲット指向の推論トレースを生成し、次に元のクエリと推論で拡張されたクエリの両方を用いて検索を行い、最後に抽出された候補のみを再ランキングする推論時のパイプラインであるR^3を提案する。このシステムは凍結されたQwen3-VLコンポーネントから構築されており、タスク特化型の学習済みモデルとしてではなく、粗密(coarse-to-fine)な検索プログラムとして設計されている。
新規性
特徴的なアイデアは、生成された推論トレースを検索の前に配置し、それを単なる説明としてではなく、制御されたクエリ拡張シグナルとして活用することである。また、元のソース編集条件を上書きすることなく、ベースクエリと整合している場合に推論が検索に影響を与えることができるように、合意ゲート付き残差融合ルール(agreement-gated residual fusion rule)を導入している。
成果
実験によると、推論に基づくリコール(抽出)は埋め込みベースラインに対して控えめな改善をもたらし、一方で再ランキングがTop-1精度の主な向上に寄与していることが示されている。報告された公式結果において、本手法は検証データで95.44 R@1、テストデータで98.82 R@1を達成し、テストデータのR@5からR@50はすべて100.00であった。アブレーション検証の議論では、推論によるR@1の向上が+0.34、再ランキングによる追加の定量的向上が+3.70であるとされている。
論文の注目点
- R^3は、合成動画検索を、推論、リコール、再ランキングの各段階を独立させた推論主導の粗密(coarse-to-fine)パイプラインとして定義している。
- 本手法は凍結されたQwen3-VLモデルを使用し、ターゲット側の推論段落を生成して、合意ゲート付き残差融合によりベース検索スコアと推論拡張検索スコアを組み合わせる。
- 経験的に、推論はわずかなリコールの向上をもたらすが、ペアごとの再ランキングが最上位の検索性能向上の主な原動力となっている。