論文の概要: VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2602.08099v1
- Date: Sun, 08 Feb 2026 19:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.981088
- Title: VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval
- Title(参考訳): VidVec:ビデオテキスト検索のためのビデオMLLM埋め込みをアンロック
- Authors: Issar Tzachor, Dvir Samuel, Rami Ben-Ari,
- Abstract要約: 本稿では,ビデオテキストの埋め込みと検索にMLLMを活用することに焦点を当てる。
まず,中間層(事前学習)MLLM層がすでにタスク関連情報を有意にエンコードしていることを示す。
我々は,中間層埋め込みと校正MLLMヘッドを組み合わせることで,トレーニングなしで強力なゼロショット検索性能が得られることを示した。
- 参考スコア(独自算出の注目度): 11.519642157641023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuning to produce universal representations. However, their performance on video remains inferior to Video Foundation Models (VFMs). In this paper, we focus on leveraging MLLMs for video-text embedding and retrieval. We first conduct a systematic layer-wise analysis, showing that intermediate (pre-trained) MLLM layers already encode substantial task-relevant information. Leveraging this insight, we demonstrate that combining intermediate-layer embeddings with a calibrated MLLM head yields strong zero-shot retrieval performance without any training. Building on these findings, we introduce a lightweight text-based alignment strategy which maps dense video captions to short summaries and enables task-related video-text embedding learning without visual supervision. Remarkably, without any fine-tuning beyond text, our method outperforms current methods, often by a substantial margin, achieving state-of-the-art results across common video retrieval benchmarks.
- Abstract(参考訳): 近年の研究では、多モード大言語モデル(MLLM)を視覚タスクの埋め込み抽出器に応用している。
しかしながら、ビデオ上でのパフォーマンスはビデオファウンデーションモデル(VFM)に劣っている。
本稿では,ビデオテキストの埋め込みと検索にMLLMを活用することに焦点を当てる。
まず,中間層(事前学習)MLLM層がすでにタスク関連情報を有意にエンコードしていることを示す。
この知見を利用して、中間層埋め込みと校正MLLMヘッドを組み合わせることで、トレーニングなしで強力なゼロショット検索性能が得られることを示す。
これらの知見に基づいて,高密度映像キャプションを短い要約にマッピングし,視覚的監督なしにタスク関連ビデオテキスト埋め込み学習を可能にする,軽量なテキストベースのアライメント戦略を導入する。
注意すべきは、テキスト以外の微調整がなければ、我々の手法は現在の手法よりも優れており、しばしばかなりのマージンで、一般的なビデオ検索ベンチマークで最先端の結果が得られます。
関連論文リスト
- An Empirical Study for Representations of Videos in Video Question Answering via MLLMs [4.726627693005334]
マルチモーダルな大言語モデルは近年,ビデオ質問応答において顕著な進歩を遂げている。
ビデオ表現がMLLMに最も有効なのか、また、異なるモダリティがタスクの精度と計算効率のバランスをとるのかは、まだ不明である。
論文 参考訳(メタデータ) (2025-10-14T09:02:22Z) - Prompts to Summaries: Zero-Shot Language-Guided Video Summarization [12.200609701777907]
Prompts-to-Summaries:最初のゼロショット・テキストクエリ可能なビデオ要約器を紹介する。
市販のビデオ言語モデル(VidLMs)のキャプションを、大きな言語モデル(LLMs)によるユーザガイドのスキムに変換する。
我々のパイプラインは、メモリ効率の高いバッチスタイルのVidLMプロンプトスキームにより、リッチなシーンレベルの記述を生成する。
SumMe と TVSum では、我々のデータフリーアプローチは、以前のデータハングリーな教師なし手法を全て上回っている。
論文 参考訳(メタデータ) (2025-06-12T15:23:11Z) - Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Video Understanding with Large Language Models: A Survey [107.7736911322462]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。