論文の概要: Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
- arxiv url: http://arxiv.org/abs/2511.01617v1
- Date: Mon, 03 Nov 2025 14:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.29422
- Title: Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
- Title(参考訳): Vote-in-Context:VLMをゼロショットランクファサーに変換する
- Authors: Mohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan,
- Abstract要約: Vote-in-Context(Vote-in-Context、VIC)は、ゼロショット推論タスクとしてリストのリランクと融合を再考する、トレーニング不要のフレームワークである。
ViC は MSR-VTT では 87.1% (t2v) / 89.0% (v2t) 、VATEX では 99.6% (v2t) となる。
- 参考スコア(独自算出の注目度): 3.9266376632068485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the retrieval domain, candidates' fusion from heterogeneous retrievers is a long-standing challenge, particularly for complex, multi-modal data such as videos. While typical fusion techniques are training-free, they rely solely on rank or score signals, disregarding candidates' representations. This work introduces Vote-in-Context (ViC), a generalized, training-free framework that re-thinks list-wise reranking and fusion as a zero-shot reasoning task for a Vision-Language Model (VLM). The core insight is to serialize both content evidence and retriever metadata directly within the VLM's prompt, allowing the model to adaptively weigh retriever consensus against visual-linguistic content. We demonstrate the generality of this framework by applying it to the challenging domain of cross-modal video retrieval. To this end, we introduce the S-Grid, a compact serialization map that represents each video as an image grid, optionally paired with subtitles to enable list-wise reasoning over video candidates. ViC is evaluated both as a single-list reranker, where it dramatically improves the precision of individual retrievers, and as an ensemble fuser, where it consistently outperforms strong baselines like CombSUM. Across video retrieval benchmarks including ActivityNet and VATEX, the framework establishes new state-of-the-art zero-shot retrieval performance, demonstrating its effectiveness in handling complex visual and temporal signals alongside text. In zero-shot settings, ViC achieves Recall@1 scores of 87.1% (t2v) / 89.0% (v2t) on MSR-VTT and 99.6% (v2t) on VATEX, representing massive gains of up to +40 Recall@1 over previous state-of-the-art baselines. We present ViC as a simple, reproducible, and highly effective recipe for turning modern VLMs into powerful zero-shot rerankers and fusers. Code and resources are publicly available at: https://github.com/mohammad2012191/ViC
- Abstract(参考訳): 検索領域では、ビデオのような複雑なマルチモーダルデータに対して、不均一なレトリバーからの候補の融合は長年の課題である。
典型的な融合技術は訓練を受けないが、ランクやスコアの信号にのみ依存し、候補者の表現を無視している。
この研究はVote-in-Context (ViC)を導入し、VLM(Vision-Language Model)のためのゼロショット推論タスクとしてリストのリランクと融合を再考する、一般化されたトレーニング不要のフレームワークを紹介した。
中心となる洞察は、VLMのプロンプト内で、コンテンツエビデンスとレトリバーメタデータを直接シリアライズすることで、モデルが視覚言語的コンテンツに対するレトリバーコンセンサスを適応的に測定できるようにすることである。
本稿では,このフレームワークの汎用性を,クロスモーダルビデオ検索の挑戦領域に適用することによって実証する。
そこで本研究では,各動画を画像グリッドとして表現するコンパクトなシリアライズマップであるS-Gridを紹介し,ビデオ候補に対するリストワイズ推論を可能にするために,字幕と任意にペアリングする。
ViCはシングルリストリランカとして評価され、個々のレトリバーの精度を劇的に向上させ、またアンサンブルフェイザーとして評価され、CombSUMのような強力なベースラインを一貫して上回っている。
ActivityNetやVATEXといったビデオ検索ベンチマーク全体を通じて、このフレームワークは最先端のゼロショット検索性能を確立し、テキストとともに複雑な視覚信号と時間信号を扱う上での有効性を実証している。
ゼロショット設定では、ViCはMSR-VTTで87.1% (t2v) / 89.0% (v2t)、VATEXで99.6% (v2t)のスコアを獲得し、過去の最先端ベースラインよりも+40 Recall@1で大幅に上昇した。
我々は、VLMをゼロショットリランカーやフューザーに変えるための、シンプルで再現性があり、非常に効果的なレシピとして、ViCを提示する。
コードとリソースは、https://github.com/mohammad2012191/ViCで公開されている。
関連論文リスト
- Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文 参考訳(メタデータ) (2025-08-19T17:59:39Z) - Prompts to Summaries: Zero-Shot Language-Guided Video Summarization [12.200609701777907]
Prompts-to-Summaries:最初のゼロショット・テキストクエリ可能なビデオ要約器を紹介する。
市販のビデオ言語モデル(VidLMs)のキャプションを、大きな言語モデル(LLMs)によるユーザガイドのスキムに変換する。
我々のパイプラインは、メモリ効率の高いバッチスタイルのVidLMプロンプトスキームにより、リッチなシーンレベルの記述を生成する。
SumMe と TVSum では、我々のデータフリーアプローチは、以前のデータハングリーな教師なし手法を全て上回っている。
論文 参考訳(メタデータ) (2025-06-12T15:23:11Z) - Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning [37.86612817818566]
そこで本稿では,関連ビデオフレームに推論ステップを接頭し,明示的に参照するビデオLLMを提案する。
我々のアプローチはシンプルで自己完結型であり、ビデオCoTの既存のアプローチとは異なり、関連するフレームを選択またはキャプションするために補助的なネットワークを必要としない。
これにより、複数のビデオ理解ベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-05-31T00:08:21Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - Multi-query Video Retrieval [44.32936301162444]
本稿では,ビデオアーカイブを検索するモデルに対して,複数のクエリが提供されるマルチクエリ・ビデオ検索について,研究の少ない設定に焦点をあてる。
本稿では,複数のクエリの類似性出力を単純に組み合わせることで,複数のクエリをトレーニング時に活用する新しい手法を提案する。
我々は、さらなるモデリング努力により、この方向性に新たな洞察をもたらし、現実世界のビデオ検索アプリケーションでより良いパフォーマンスを発揮する新しいシステムを創り出すと信じている。
論文 参考訳(メタデータ) (2022-01-10T20:44:46Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。