論文の概要: RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval
- arxiv url: http://arxiv.org/abs/2602.02444v2
- Date: Tue, 03 Feb 2026 16:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.879287
- Title: RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval
- Title(参考訳): RANKVIDEO:テキスト・ビデオ検索のリトライ
- Authors: Tyler Skow, Alexander Martin, Benjamin Van Durme, Rama Chellappa, Reno Kriz,
- Abstract要約: 本稿では,ビデオ検索のための推論に基づくリランカであるRANKVIDEOを紹介する。
RANKVIDEOは、関連性を評価するためにビデオコンテンツを使用するクエリ-ビデオペアを明示的に理由付けている。
大規模なMultiVENT 2.0ベンチマークの実験では、RANKVIDEOは2段階のフレームワーク内での検索性能を一貫して改善している。
- 参考スコア(独自算出の注目度): 99.33724613432922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reranking is a critical component of modern retrieval systems, which typically pair an efficient first-stage retriever with a more expressive model to refine results. While large reasoning models have driven rapid progress in text-centric reranking, reasoning-based reranking for video retrieval remains underexplored. To address this gap, we introduce RANKVIDEO, a reasoning-based reranker for video retrieval that explicitly reasons over query-video pairs using video content to assess relevance. RANKVIDEO is trained using a two-stage curriculum consisting of perception-grounded supervised fine-tuning followed by reranking training that combines pointwise, pairwise, and teacher confidence distillation objectives, and is supported by a data synthesis pipeline for constructing reasoning-intensive query-video pairs. Experiments on the large-scale MultiVENT 2.0 benchmark demonstrate that RANKVIDEO consistently improves retrieval performance within a two-stage framework, yielding an average improvement of 31% on nDCG@10 and outperforming text-only and vision-language reranking alternatives, while more efficient.
- Abstract(参考訳): リグレードは現代の検索システムにおいて重要な要素であり、通常は効率の良い第1段階のレトリバーとより表現力のあるモデルを組み合わせて結果を洗練する。
大規模な推論モデルではテキスト中心の再ランク付けが急速に進んでいるが、ビデオ検索のための推論に基づく再ランク付けはいまだに未検討である。
このギャップに対処するために,ビデオコンテンツを用いた問合せ-ビデオペアに対して,関連性を評価するための推論に基づくビデオ検索用リランカであるRANKVIDEOを紹介した。
RANKVIDEOは,2段階の学習カリキュラムを用いて学習し,さらに,ポイントワイド,ペアワイド,教師信頼蒸留を併用した再評価訓練を行い,推論集約型クエリービデオペアを構築するためのデータ合成パイプラインによって支援されている。
大規模なMultiVENT 2.0ベンチマークの実験では、RANKVIDEOは2段階のフレームワーク内での検索性能を一貫して改善し、nDCG@10では平均31%向上し、テキストのみおよび視覚言語による代替品よりも優れ、効率が向上した。
関連論文リスト
- ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives [93.31112073070906]
既存の方法はビデオ検索性能を向上させるために大規模な事前学習に依存している。
そこで我々は,より微粒な特徴を学習し,アライメントを改善するための新しいフレームワークを提案する。
追加のトレーニングなしでパフォーマンスを改善するための推論パイプラインも導入しています。
論文 参考訳(メタデータ) (2025-08-20T16:03:56Z) - Multimodal Lengthy Videos Retrieval Framework and Evaluation Metric [1.9774761182870912]
本稿では,視覚的マッチングストリームと聴覚的マッチングストリームと,独自の字幕ベースのビデオセグメンテーションアプローチを組み合わせた統合フレームワークを提案する。
我々はYouCook2ベンチマークで実験を行い、有望な検索性能を示す。
論文 参考訳(メタデータ) (2025-04-06T18:18:09Z) - Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video Retrieval [80.09819072780193]
平均精度(AP)は、関連ビデオのランキングを上位リストで評価する。
最近のビデオ検索手法は、全てのサンプル対を等しく扱うペアワイズ損失を利用する。
論文 参考訳(メタデータ) (2024-07-22T11:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。