論文の概要: Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2507.23284v1
- Date: Thu, 31 Jul 2025 06:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.213404
- Title: Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval
- Title(参考訳): テキストビデオ検索のための多モード大言語モデルによる双方向類似度推定
- Authors: Dohwan Ko, Ji Soo Lee, Minhyuk Choi, Zihang Meng, Hyunwoo J. Kim,
- Abstract要約: MLLM (BLiM) を用いた双方向類似度推定手法を提案する。
4つのText-Video Retrievalベンチマークでは、CPNを搭載したBLiMは、従来の最先端モデルを平均6.4R@1で上回っている。
- 参考スコア(独自算出の注目度): 18.41953329648681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-Video Retrieval aims to find the most relevant text (or video) candidate given a video (or text) query from large-scale online databases. Recent work leverages multi-modal large language models (MLLMs) to improve retrieval, especially for long or complex query-candidate pairs. However, we observe that the naive application of MLLMs, i.e., retrieval based on candidate likelihood, introduces candidate prior bias, favoring candidates with inherently higher priors over those more relevant to the query. To this end, we propose a novel retrieval framework, Bidirectional Likelihood Estimation with MLLM (BLiM), which leverages both query and candidate likelihoods by training the model to generate text from a given video as well as video features from a given text. Furthermore, we introduce Candidate Prior Normalization (CPN), a simple yet effective training-free score calibration module designed to mitigate candidate prior bias in candidate likelihood. On four Text-Video Retrieval benchmarks, our BLiM equipped with CPN outperforms previous state-of-the-art models by 6.4 R@1 on average, effectively alleviating candidate prior bias and emphasizing query-candidate relevance. Our in-depth analysis across various multi-modal tasks beyond retrieval highlights the broad applicability of CPN which enhances visual understanding by reducing reliance on textual priors. Code is available at https://github.com/mlvlab/BLiM.
- Abstract(参考訳): Text-Video Retrievalは、大規模オンラインデータベースからビデオ(またはテキスト)クエリーを与えられた最も関連性の高いテキスト(またはビデオ)候補を見つけることを目的としている。
最近の研究は、検索を改善するためにMLLM(Multi-modal large language model)を活用している。
しかし、MLLMの単純適用、すなわち、候補確率に基づく検索は、クエリに関連するものよりも本質的に上位の候補を優先して、候補優先バイアスを導入する。
そこで本稿では,MLLMを用いた双方向類似度推定(BliM)という新たな検索フレームワークを提案する。
さらに,候補候補偏差を低減させるため,簡易かつ効果的なトレーニング不要スコア校正モジュールであるCandidate Prior Normalization (CPN)を導入する。
4つのText-Video Retrievalベンチマークにおいて、CPNを備えたBLiMは、従来の最先端モデルを平均6.4R@1で上回り、候補の事前バイアスを効果的に軽減し、クエリ候補の妥当性を強調する。
検索以外の様々なマルチモーダルタスクを対象とした詳細な分析では,テキストの先行処理への依存を減らし,視覚的理解を高めるCPNの幅広い適用性を強調した。
コードはhttps://github.com/mlvlab/BLiM.comで入手できる。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Ask Optimal Questions: Aligning Large Language Models with Retriever's Preference in Conversation [23.74712435991676]
RetPOは、ターゲット検索システムの好みに合わせて検索クエリを再構成する言語モデルを最適化するように設計されている。
我々は、12Kの会話で410K以上のクエリを書き換えるRetrievers' Feedbackと呼ばれる大規模なデータセットを構築した。
その結果,2つのベンチマークにおいて,従来のリライト・ザ・リトリーブ・アプローチの最先端性能を上回る優位性を示した。
論文 参考訳(メタデータ) (2024-02-19T04:41:31Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z) - PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。
我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-12T17:21:33Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。