論文の概要: FreeRet: MLLMs as Training-Free Retrievers
- arxiv url: http://arxiv.org/abs/2509.24621v1
- Date: Mon, 29 Sep 2025 11:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.940793
- Title: FreeRet: MLLMs as Training-Free Retrievers
- Title(参考訳): FreeRet: トレーニングフリーのリトリバーとしてのMLLM
- Authors: Yuhan Zhu, Xiangyu Zeng, Chenting Wang, Xinhao Li, Yicheng Xu, Ziang Yan, Yi Wang, Limin Wang,
- Abstract要約: FreeRetは、任意のMLLMを2段階のレトリバーに変換するプラグイン・アンド・プレイフレームワークである。
MMEBとMMEB-V2のベンチマークでは、FreeRetは何百万ものペアでトレーニングされたモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 21.04237443940747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are emerging as versatile foundations for mixed-modality retrieval. Yet, they often require heavy post-hoc training to convert them into contrastive encoders for retrieval. This work asks: Can off-the-shelf MLLMs serve as powerful retrievers without additional training? We present FreeRet, a plug-and-play framework that turns any MLLM into a two-stage retriever. FreeRet first derives semantically grounded embeddings directly from the model for fast candidate search, and then exploits its reasoning ability for precise reranking. The framework contributes three advances: bypassing lexical alignment layers to obtain semantically faithful embeddings, conditioning representation generation with explicit priors, and mitigating framing effect in reranking via neutral choice framing. On the MMEB and MMEB-V2 benchmarks spanning 46 datasets, FreeRet substantially outperforms models trained on millions of pairs. Beyond benchmarks, FreeRet is model-agnostic and scales seamlessly across MLLM families and sizes, preserves their generative abilities, supports arbitrary modality combinations, and unifies retrieval, reranking, and generation into end-to-end RAG within a single model. Our findings demonstrate that pretrained MLLMs, when carefully harnessed, can serve as strong retrieval engines without training, closing a critical gap in their role as generalists.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は混合モダリティ検索のための多目的基盤として出現している。
しかし、それらは検索のためにコントラストエンコーダに変換するために、重いポストホックトレーニングを必要とすることが多い。
市販のMLLMは、追加のトレーニングなしで強力なレトリバーとして機能できますか?
MLLMを2段階のレトリバーに変換するプラグイン・アンド・プレイフレームワークであるFreeRetを紹介します。
FreeRetはまず、高速な候補探索のためのモデルから直接、セマンティックに接地された埋め込みを導出し、その後、その推論能力を利用して正確なランク付けを行う。
このフレームワークは3つの進歩に寄与している: 語彙的アライメント層をバイパスして意味論的に忠実な埋め込みを得る、明示的な事前条件付き条件付け表現生成、中立選択フレーミングによる再ランク付けにおけるフレーミング効果の緩和。
46のデータセットにまたがるMMEBとMMEB-V2ベンチマークでは、FreeRetは数百万対のペアでトレーニングされたモデルを大幅に上回っている。
ベンチマーク以外にも、FreeRetはモデルに依存しず、MLLMファミリーやサイズをシームレスにスケールし、生成能力を保持し、任意のモダリティの組み合わせをサポートし、単一のモデル内で検索、再ランク付け、生成をエンドツーエンドのRAGに統一する。
以上の結果から,事前学習したMLLMはトレーニングなしで強力な検索エンジンとして機能し,ジェネラリストとしての役割において重要なギャップを埋めることが可能であることが示唆された。
関連論文リスト
- How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment [15.51412479114864]
クロスモーダル表現学習を導く新しいフレームワークであるMAPLE(Modality-Aligned Preference Learning for Embeddings)を紹介する。
MaPLEは、学習過程を強化学習として定式化し、既成のMLLMを用いた自動選好データ構築と、新たなRPA(Relative Preference Alignment)損失という2つの重要な要素を定式化している。
実験結果から,我々の嗜好誘導アライメントは細粒度クロスモーダル検索において著しく向上することが示された。
論文 参考訳(メタデータ) (2025-06-08T02:33:35Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free [21.59456761618456]
大規模言語モデル(LLM)は生成タスクに優れ、デコーダのみのアーキテクチャは、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性を制限することが多い。
我々の研究は、MoE LLMのエキスパートルータが、様々な組込みタスクに対して有望な性能を持つ既製の組込みモデルとして機能できることを示唆している。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training [9.023648972811458]
RagVLは、知識強化されたリグレードとノイズ注入トレーニングを備えた、新しいフレームワークである。
我々はMLLMに簡単な命令テンプレートを付与し、そのランク付け能力を誘導する。
例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-31T08:43:17Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。