論文の概要: PREGEN: Uncovering Latent Thoughts in Composed Video Retrieval
- arxiv url: http://arxiv.org/abs/2601.13797v1
- Date: Tue, 20 Jan 2026 09:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.253996
- Title: PREGEN: Uncovering Latent Thoughts in Composed Video Retrieval
- Title(参考訳): Pregen: ビデオ検索に潜入した思考を発見
- Authors: Gabriele Serussi, David Vainshtein, Jonathan Kouchly, Dotan Di Castro, Chaim Baskin,
- Abstract要約: Composed Video Retrieval (CoVR)は、クエリビデオと修正テキストに基づいてビデオを取得することを目的としている。
現在のCoVR法は、現代のビジョンランゲージモデル(VLM)を完全に活用できない
これらの制限を克服する効率的で強力なCoVRフレームワークであるPregenを紹介します。
- 参考スコア(独自算出の注目度): 9.493866391853723
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Composed Video Retrieval (CoVR) aims to retrieve a video based on a query video and a modifying text. Current CoVR methods fail to fully exploit modern Vision-Language Models (VLMs), either using outdated architectures or requiring computationally expensive fine-tuning and slow caption generation. We introduce PREGEN (PRE GENeration extraction), an efficient and powerful CoVR framework that overcomes these limitations. Our approach uniquely pairs a frozen, pre-trained VLM with a lightweight encoding model, eliminating the need for any VLM fine-tuning. We feed the query video and modifying text into the VLM and extract the hidden state of the final token from each layer. A simple encoder is then trained on these pooled representations, creating a semantically rich and compact embedding for retrieval. PREGEN significantly advances the state of the art, surpassing all prior methods on standard CoVR benchmarks with substantial gains in Recall@1 of +27.23 and +69.59. Our method demonstrates robustness across different VLM backbones and exhibits strong zero-shot generalization to more complex textual modifications, highlighting its effectiveness and semantic capabilities.
- Abstract(参考訳): Composed Video Retrieval (CoVR)は、クエリビデオと修正テキストに基づいてビデオを取得することを目的としている。
現在のCoVR法は、時代遅れのアーキテクチャを使うか、計算に高価な微調整とスローキャプション生成を必要とする、現代のビジョン・ランゲージ・モデル(VLM)を完全に活用できない。
我々はこれらの制限を克服する効率的かつ強力なCoVRフレームワークである PreGEN (PRE GENeration extract) を導入する。
提案手法は,凍結訓練済みのVLMと軽量符号化モデルとを一意に組み合わせることで,VLMの微調整を不要とする。
問合せビデオとテキストをVLMに入力し,各層から最終トークンの隠蔽状態を抽出する。
単純なエンコーダはこれらのプール化された表現に基づいて訓練され、セマンティックにリッチでコンパクトな埋め込みを生成する。
PreGENは最先端の手法を大幅に進歩させ、標準のCoVRベンチマークでは、Recall@1の+27.23と+69.59で大幅に上昇した。
提案手法は,異なるVLMバックボーン間のロバスト性を示し,より複雑なテキスト修正に対して強いゼロショット一般化を示し,その有効性とセマンティック機能を強調している。
関連論文リスト
- Delving Deeper: Hierarchical Visual Perception for Robust Video-Text Retrieval [9.243219818283263]
ビデオテキスト検索(VTR)は、自然言語クエリを用いて関連ビデオを見つけることを目的としている。
現在の方法は、しばしばCLIPのようなトレーニング済みモデルに基づいており、ビデオ固有の冗長性と、粗い最終層機能への依存によって妨げられている。
視覚エンコーダの複数の中間層から特徴を抽出・精錬することで、よりリッチなビデオセマンティクスをマイニングするフレームワークであるHVP-Netを導入する。
論文 参考訳(メタデータ) (2026-01-19T06:55:33Z) - From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos [48.666667545084835]
Composed Video Retrieval(CoVR)は、クエリビデオと、意図した変更を記述した修正テキストが与えられたターゲットビデオを取得する。
TF-CoVRは、時間的にきめ細かなCoVRに特化した最初の大規模ベンチマークである。
TF-CoVRは体操とダイビングに重点を置いており、FinGymとFineDivingから180Kのトリプルを提供している。
論文 参考訳(メタデータ) (2025-06-05T17:31:17Z) - LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts [19.81035705650859]
長いビデオテキスト検索用に特別に設計されたベンチマークであるLoVRを紹介する。
LoVRには467本の長編ビデオと40,804本の細かなクリップがあり、高品質なキャプションがある。
私たちのベンチマークでは、より長いビデオ、より詳細なキャプション、より大規模なデータセットを導入しています。
論文 参考訳(メタデータ) (2025-05-20T04:49:09Z) - SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration [73.70209718408641]
SeedVRは、任意の長さと解像度で現実世界のビデオ再生を処理するために設計された拡散トランスフォーマーである。
合成ベンチマークと実世界のベンチマーク、AI生成ビデオで高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-01-02T16:19:48Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。