論文の概要: Scaling Sparse and Dense Retrieval in Decoder-Only LLMs
- arxiv url: http://arxiv.org/abs/2502.15526v1
- Date: Fri, 21 Feb 2025 15:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:12.924675
- Title: Scaling Sparse and Dense Retrieval in Decoder-Only LLMs
- Title(参考訳): Decoder-Only LLMにおけるスパースとデンス検索
- Authors: Hansi Zeng, Julian Killingback, Hamed Zamani,
- Abstract要約: 大規模言語モデル(LLM)のスケーリングは,検索モデルの性能向上に大きな可能性を示している。
従来の研究は、比較損失(CL)を訓練した高密度な検索に重点を置いてきた。
スパース検索モデルは、インドメイン(MSMARCO, TREC DL)とアウト・オブ・ドメイン(BEIR)ベンチマークの両方において、密集検索を一貫して上回っている。
- 参考スコア(独自算出の注目度): 20.173669986209024
- License:
- Abstract: Scaling large language models (LLMs) has shown great potential for improving retrieval model performance; however, previous studies have mainly focused on dense retrieval trained with contrastive loss (CL), neglecting the scaling behavior of other retrieval paradigms and optimization techniques, such as sparse retrieval and knowledge distillation (KD). In this work, we conduct a systematic comparative study on how different retrieval paradigms (sparse vs. dense) and fine-tuning objectives (CL vs. KD vs. their combination) affect retrieval performance across different model scales. Using MSMARCO passages as the training dataset, decoder-only LLMs (Llama-3 series: 1B, 3B, 8B), and a fixed compute budget, we evaluate various training configurations on both in-domain (MSMARCO, TREC DL) and out-of-domain (BEIR) benchmarks. Our key findings reveal that: (1) Scaling behaviors emerge clearly only with CL, where larger models achieve significant performance gains, whereas KD-trained models show minimal improvement, performing similarly across the 1B, 3B, and 8B scales. (2) Sparse retrieval models consistently outperform dense retrieval across both in-domain (MSMARCO, TREC DL) and out-of-domain (BEIR) benchmarks, and they demonstrate greater robustness to imperfect supervised signals. (3) We successfully scale sparse retrieval models with the combination of CL and KD losses at 8B scale, achieving state-of-the-art (SOTA) results in all evaluation sets.
- Abstract(参考訳): 大規模言語モデル (LLM) のスケーリングは, 検索モデルの性能向上に大きな可能性を示しているが, 従来の研究では, 比較的損失 (CL) で訓練された高密度な検索に主眼を置いており, スパース検索や知識蒸留 (KD) などの他の検索パラダイムのスケーリング挙動や最適化手法を無視している。
本研究では,検索パラダイムの違い(密集度と密接度)と微調整目標(CL対KD対それらの組み合わせ)が,異なるモデルスケールでの検索性能に与える影響について,系統的な比較研究を行う。
MSMARCO パスをトレーニングデータセットとして,デコーダのみの LLM (Llama-3 series: 1B, 3B, 8B) と固定計算予算を用いて,インドメイン (MSMARCO, TREC DL) とアウト・オブ・ドメイン (BEIR) のベンチマークを用いて,様々なトレーニング構成を評価する。
一方、KD訓練モデルでは1B, 3B, 8Bのスケールでも同様に機能するが、大きなモデルでは大きなパフォーマンス向上が達成できる。
2) スパース検索モデルは内部領域 (MSMARCO, TREC DL) と外部領域 (BEIR) のベンチマークで連続的に高い検索性能を示し, 教師なし信号に対する堅牢性を示した。
(3) CLとKDの損失を8Bスケールで組み合わせたスパース検索モデルの構築に成功し,すべての評価セットでSOTA(State-of-the-art)を達成した。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - What Matters for In-Context Learning: A Balancing Act of Look-up and In-Weight Learning [42.8453045943264]
ICLには,データシーケンスにおける概念的反復が不可欠であることを示す。
また、ICLの出現は、重み付き学習目標とコンテキスト内問題解決能力のバランスに依存することを示した。
論文 参考訳(メタデータ) (2025-01-09T09:45:05Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - In-context Learning and Gradient Descent Revisited [3.085927389171139]
トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアが得られることを示す。
次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。
本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T21:42:38Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Foundational Models for Continual Learning: An Empirical Study of Latent
Replay [17.322679682451597]
本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。
大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
論文 参考訳(メタデータ) (2022-04-30T19:11:37Z) - Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。
新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。
本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文 参考訳(メタデータ) (2021-11-18T06:58:19Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。