論文の概要: Generative Recall, Dense Reranking: Learning Multi-View Semantic IDs for Efficient Text-to-Video Retrieval
- arxiv url: http://arxiv.org/abs/2601.21193v1
- Date: Thu, 29 Jan 2026 02:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.529135
- Title: Generative Recall, Dense Reranking: Learning Multi-View Semantic IDs for Efficient Text-to-Video Retrieval
- Title(参考訳): ジェネレーティブリコール, ディエンスリグレード: 効率的なテキスト・ビデオ検索のためのマルチビューセマンティックIDの学習
- Authors: Zecheng Zhao, Zhi Chen, Zi Huang, Shazia Sadiq, Tong Chen,
- Abstract要約: TVR(Text-to-Video Retrieval)は、ビデオプラットフォームにおいて必須である。
最近の生成的検索 (GR) は、高密度なビデオ埋め込みを個別のセマンティックIDに置き換えている。
本稿では,リフレクティブ・リコールとディエンス・リグレード(GRDR)を用いて,リフレクティブ・リコールとディエンス・リグレード(GRDR)を提案する。
- 参考スコア(独自算出の注目度): 37.53971258580919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Video Retrieval (TVR) is essential in video platforms. Dense retrieval with dual-modality encoders leads in accuracy, but its computation and storage scale poorly with corpus size. Thus, real-time large-scale applications adopt two-stage retrieval, where a fast recall model gathers a small candidate pool, which is reranked by an advanced dense retriever. Due to hugely reduced candidates, the reranking model can use any off-the-shelf dense retriever without hurting efficiency, meaning the recall model bounds two-stage TVR performance. Recently, generative retrieval (GR) replaces dense video embeddings with discrete semantic IDs and retrieves by decoding text queries into ID tokens. GR offers near-constant inference and storage complexity, and its semantic IDs capture high-level video features via quantization, making it ideal for quickly eliminating irrelevant candidates during recall. However, as a recall model in two-stage TVR, GR suffers from (i) semantic ambiguity, where each video satisfies diverse queries but is forced into one semantic ID; and (ii) cross-modal misalignment, as semantic IDs are solely derived from visual features without text supervision. We propose Generative Recall and Dense Reranking (GRDR), designing a novel GR method to uplift recalled candidate quality. GRDR assigns multiple semantic IDs to each video using a query-guided multi-view tokenizer exposing diverse semantic access paths, and jointly trains the tokenizer and generative retriever via a shared codebook to cast semantic IDs as the semantic bridge between texts and videos. At inference, trie-constrained decoding generates a compact candidate set reranked by a dense model for fine-grained matching. Experiments on TVR benchmarks show GRDR matches strong dense retrievers in accuracy while reducing index storage by an order of magnitude and accelerating up to 300$\times$ in full-corpus retrieval.
- Abstract(参考訳): TVR(Text-to-Video Retrieval)は、ビデオプラットフォームにおいて必須である。
二重モードエンコーダを用いた高密度検索は精度が向上するが、その計算とストレージスケールはコーパスサイズに劣る。
このように、リアルタイムな大規模アプリケーションは2段階検索を採用し、高速なリコールモデルによって小さな候補プールが収集される。
候補が大幅に削減されたため、リグレードモデルは効率を損なうことなくオフザシェルフの高密度レトリバーを使用でき、つまりリコールモデルは2段階のTVR性能を制限している。
近年,ジェネレーティブ検索(GR)は,テキストクエリをIDトークンに復号することで,高密度なビデオ埋め込みを個別のセマンティックIDに置き換えている。
GRは、ほぼ一定に近い推論とストレージの複雑さを提供し、そのセマンティックIDは量子化によって高レベルのビデオ特徴をキャプチャする。
しかし、二段テレビRのリコールモデルとしてGRは苦しむ
(i)各ビデオが多様なクエリを満たすが、1つのセマンティックIDに強制されるセマンティックあいまいさ。
セマンティックIDは、テキストを監督しない視覚的特徴からのみ派生したものである。
本稿では,リコールされた候補品質を向上する新しいGR法を設計し,ジェネレーティブ・リコール・デンス・リグレード(GRDR)を提案する。
GRDRは、多様なセマンティックアクセスパスを示すクエリ誘導マルチビュートークンーザを使用して、各ビデオに複数のセマンティックIDを割り当て、共有コードブックを介してトークンーと生成レトリバーを共同で訓練し、セマンティックIDをテキストとビデオ間のセマンティックブリッジとしてキャストする。
推論において、トリエ制約デコーディングは、きめ細かいマッチングのために、密集モデルによって再ランクされたコンパクトな候補セットを生成する。
TVRベンチマークの実験では、GRDRは強力な高密度検索器と精度で一致し、インデックスストレージは桁違いに減少し、フルコーパス検索で最大300$\times$まで加速する。
関連論文リスト
- Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - Hierarchical Indexing with Knowledge Enrichment for Multilingual Video Corpus Retrieval [10.895207313110427]
我々は,NLPCC-2025 M4IVQAチャレンジにおいて,Multilingual Video Corpus Retrieval (mVCR)タスクに取り組む。
ビデオ字幕は意味的に一貫性のあるチャンクに分割され、簡潔な知識グラフ(KG)の事実に富む。
クエリ時に、粗い木々探索プルーネは関係のない枝であり、上位のチャンクだけが軽量な大言語モデル(LLM)によって再描画される。
論文 参考訳(メタデータ) (2025-10-10T17:06:01Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。