Fugu-MT 論文翻訳(概要): ScalingNote: Scaling up Retrievers with Large Language Models for Real-World Dense Retrieval

論文の概要: ScalingNote: Scaling up Retrievers with Large Language Models for Real-World Dense Retrieval

arxiv url: http://arxiv.org/abs/2411.15766v1
Date: Sun, 24 Nov 2024 09:27:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 14:43:33.605075
Title: ScalingNote: Scaling up Retrievers with Large Language Models for Real-World Dense Retrieval
Title（参考訳）: ScalingNote: リアルタイムのDense Retrievalのための大規模言語モデルによるレトリバーのスケールアップ
Authors: Suyuan Huang, Chao Zhang, Yuanyuan Wu, Haoxin Zhang, Yuan Wang, Maolin Wang, Shaosheng Cao, Tong Xu, Xiangyu Zhao, Zengchang Qin, Yan Gao, Yunhan Bai, Jun Fan, Yao Hu, Enhong Chen,
Abstract要約: 大規模言語モデル(LLM)は、高密度検索のスケールアップに活用できる優れた性能を示した。オンラインクエリ待ち時間を維持しながら、検索にLLMのスケーリング可能性を利用する2段階のScalingNoteを提案する。両段階のスケーリング手法はエンド・ツー・エンドのモデルより優れており,産業シナリオにおけるLLMを用いた高密度検索のスケーリング法則を検証している。
参考スコア（独自算出の注目度）: 72.2676180980573
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dense retrieval in most industries employs dual-tower architectures to retrieve query-relevant documents. Due to online deployment requirements, existing real-world dense retrieval systems mainly enhance performance by designing negative sampling strategies, overlooking the advantages of scaling up. Recently, Large Language Models (LLMs) have exhibited superior performance that can be leveraged for scaling up dense retrieval. However, scaling up retrieval models significantly increases online query latency. To address this challenge, we propose ScalingNote, a two-stage method to exploit the scaling potential of LLMs for retrieval while maintaining online query latency. The first stage is training dual towers, both initialized from the same LLM, to unlock the potential of LLMs for dense retrieval. Then, we distill only the query tower using mean squared error loss and cosine similarity to reduce online costs. Through theoretical analysis and comprehensive offline and online experiments, we show the effectiveness and efficiency of ScalingNote. Our two-stage scaling method outperforms end-to-end models and verifies the scaling law of dense retrieval with LLMs in industrial scenarios, enabling cost-effective scaling of dense retrieval systems. Our online method incorporating ScalingNote significantly enhances the relevance between retrieved documents and queries.
Abstract（参考訳）: ほとんどの産業におけるDense検索では、クエリ関連文書の検索にデュアルトウワーアーキテクチャを採用している。オンライン展開要求のため、既存の実世界の密集検索システムは、主にスケールアップの利点を見越して、ネガティブなサンプリング戦略を設計することでパフォーマンスを向上する。近年,Large Language Models (LLMs) は高密度検索のスケールアップに活用できる優れた性能を示した。しかし、検索モデルのスケールアップは、オンラインクエリのレイテンシを大幅に向上させる。この課題に対処するために,オンラインクエリ待ち時間を維持しながら,LLMのスケーリング可能性を活用する2段階のScalingNoteを提案する。最初の段階は、2つの塔を訓練し、どちらも同一のLLMから初期化され、LLMのポテンシャルを解き放つ。そして,平均二乗誤差損失とコサイン類似度を用いてクエリタワーのみを蒸留し,オンラインコストを削減する。理論的解析と総合的なオフラインおよびオンライン実験を通じて,ScalingNoteの有効性と有効性を示す。両段階のスケーリング手法は, エンド・ツー・エンドモデルより優れ, 産業シナリオにおけるLLMによる高密度検索のスケーリング法則を検証し, 高密度検索システムのコスト効率なスケーリングを可能にした。 ScalingNoteを組み込んだオンライン手法は,検索したドキュメントとクエリの関連性を大幅に向上させる。

関連論文リスト

CSPLADE: Learned Sparse Retrieval with Causal Language Models [12.930248566238243]
学習スパース検索(LSR)のための大規模言語モデル(LLM)の訓練における2つの課題を特定する。本研究では,(1)トレーニング不安定を解消するための軽量適応訓練フェーズ,(2)双方向情報を実現するための2つのモデル変種を提案する。これらの手法により,LSRモデルを8BスケールのLLMで学習し,インデックスサイズを縮小した競合検索性能を実現することができる。
論文参考訳（メタデータ） (2025-04-15T02:31:34Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing [19.577278316436807]
大きな言語モデル(LLM)はコンテキストウィンドウサイズによって制限される。そこで本研究では,LLM自体の注意情報を利用して正確な検索を行う手法を提案する。 InfiniRetriは0.5Bパラメータモデルを用いて、1Mトークン上でのNeedle-In-a-Haystack(NIH)テストで100%精度を達成する。
論文参考訳（メタデータ） (2025-02-18T15:45:36Z)
Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文参考訳（メタデータ） (2024-11-20T09:46:30Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Best Practices for Distilling Large Language Models into BERT for Web Search Ranking [14.550458167328497]
LLM(Large Language Models)は、潜在的文書のランク付けリストを生成する。 LLMのランキングの専門知識をBERTのようなよりコンパクトなモデルに移行し、ランキングの損失を利用して、リソース集約の少ないモデルのデプロイを可能にします。 2024年2月現在,我々のモデルは商用ウェブ検索エンジンに統合されている。
論文参考訳（メタデータ） (2024-11-07T08:54:46Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract) [73.57710917145212]
ランク付け学習は、入力クエリに基づいて関連するWebページを優先順位付けするために、Web検索で広く使われている。本稿では,これらの課題に対処するために,経験的 UlineSemi-uline Supervised ulinePre-trained (GS2P) モデルを提案する。我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。
論文参考訳（メタデータ） (2024-09-25T03:39:14Z)
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。 LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。 LASERは公開データセットの3～5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
List-aware Reranking-Truncation Joint Model for Search and Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。 GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文参考訳（メタデータ） (2024-02-05T06:52:53Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。