論文の概要: Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking
- arxiv url: http://arxiv.org/abs/2510.14824v1
- Date: Thu, 16 Oct 2025 16:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.935323
- Title: Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking
- Title(参考訳): ファインチューニングかコントラスト学習か? : マルチモーダル LLM の改良に向けて
- Authors: Ziqi Dai, Xin Zhang, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Meishan Zhang, Wenjie Li, Min Zhang,
- Abstract要約: 大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
- 参考スコア(独自算出の注目度): 56.46309219272326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In information retrieval, training reranking models mainly focuses on two types of objectives: metric learning (e.g. contrastive loss to increase the predicted scores on relevant query-document pairs) and classification (binary label prediction of relevance vs. irrelevance). For BERT-style encoders, various studies have shown that contrastive learning (CL) can be more effective than discriminative (classification) learning. However, for large language models (LLMs), classification via supervised fine-tuning (SFT), which predicts ''yes'' (resp. ''no'') token for relevant (resp. irrelevant) pairs, appears more promising as it aligns well with the generative nature of LLMs. This divergence raises a central question: which objective is intrinsically better suited to LLM-based reranking, and what mechanism underlies the difference? In this work, we conduct a comprehensive comparison and analysis between CL and SFT for reranking, taking the universal multimodal retrieval (UMR) as the experimental playground. We first decompose the objectives into two components: weight, which controls the magnitude of those updates, and direction, which guides the model updates, then present a unified framework for understanding their interactions. Through probing experiments, we find that SFT provides a substantially stronger weighting scheme than CL, whereas the preferred scoring direction shows no clear winner. Taken together, these results point to a consistent advantage of SFT over CL for LLM reranking. To further validate our findings, we conduct large-scale training with SFT and present new state-of-the-art rerankers on the MRB benchmark. We also provide ablations on SFT settings and expect our findings to benefit future research and applications in this area.
- Abstract(参考訳): 情報検索において、トレーニングリグレードモデルは、主に、メトリックラーニング(例えば、関連するクエリとドキュメントのペアの予測スコアを増やすための対照的な損失)と分類(関連性のバイナリラベル予測)の2つの目的に焦点を当てている。
BERTスタイルのエンコーダでは、比較学習(CL)が識別学習(分類学習)よりも効果的であることが様々な研究で示されている。
しかし、大型言語モデル(LLMs)では、LLMの生成特性とよく一致しているため、関連する(非関連)ペアに対して'yes' (resp. 'no')トークンを予測する教師付き微調整(英語版) (SFT) による分類がより有望である。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
本研究では、CLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
まず、目的を2つのコンポーネントに分解する: 重み(重み)、方向(重み)、モデル更新を導く方向(重み)、そしてそれらの相互作用を理解するための統一されたフレームワークを示す。
探索実験により、SFTはCLよりもかなり強力な重み付けスキームを提供するのに対し、好ましいスコアリング方向は明確な勝者を示さないことがわかった。
これらの結果は,LLMのCLよりもSFTの方が一貫した優位性を示している。
この結果をさらに検証するため,SFTを用いた大規模トレーニングを行い,MBBベンチマークで新しい最先端リランカーを提案する。
また、SFT設定の短縮も提供し、この分野での今後の研究や応用に利益をもたらすと期待しています。
関連論文リスト
- Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm [16.78399933831573]
本稿では、推論過程を表現学習に統合するLarge Reasoning Embedding Model(LREM)を提案する。
難解なクエリに対して、LREMはまず、元のクエリの深い理解を達成するために推論を行い、その後、検索のための推論拡張クエリ埋め込みを生成する。
この推論プロセスは、元のクエリとターゲットアイテム間のセマンティックギャップを効果的にブリッジし、検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-16T05:37:39Z) - Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them [25.324955028065887]
一般的な2つのアプローチは強化学習(RL)と教師付き微調整(SFT)である。
MMLUのような知識集約型ベンチマークでは,RLは数学の領域内ゲインとわずかに低下することがわかった。
SFTはさらなる更新を示し、中間層クエリにも影響し、ドメイン外劣化を引き起こした可能性があると推測する。
論文 参考訳(メタデータ) (2025-07-13T19:04:17Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。
また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。
以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-13T02:51:17Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。