論文の概要: Retrieval Capabilities of Large Language Models Scale with Pretraining FLOPs
- arxiv url: http://arxiv.org/abs/2508.17400v1
- Date: Sun, 24 Aug 2025 15:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.506562
- Title: Retrieval Capabilities of Large Language Models Scale with Pretraining FLOPs
- Title(参考訳): FLOPの事前学習による大規模言語モデルの検索機能
- Authors: Jacob Portes, Connor Jennings, Erica Ji Yuen, Sasha Doubov, Michael Carbin,
- Abstract要約: 我々は,10億トークンから2兆トークンを超えるデータセットで事前訓練された,LLMモデルサイズ125万パラメータから70億パラメータまでの検索性能をベンチマークした。
その結果、ゼロショットBEIRタスクの検索性能は、LLMサイズ、トレーニング期間、推定FLOPと予測可能でスケールすることがわかった。
- 参考スコア(独自算出の注目度): 7.028731724791672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How does retrieval performance scale with pretraining FLOPs? We benchmark retrieval performance across LLM model sizes from 125 million parameters to 7 billion parameters pretrained on datasets ranging from 1 billion tokens to more than 2 trillion tokens. We find that retrieval performance on zero-shot BEIR tasks predictably scales with LLM size, training duration, and estimated FLOPs. We also show that In-Context Learning scores are strongly correlated with retrieval scores across retrieval tasks. Finally, we highlight the implications this has for the development of LLM-based retrievers.
- Abstract(参考訳): FLOPの事前学習による検索性能の尺度化
我々は,10億トークンから2兆トークンを超えるデータセットで事前訓練された,LLMモデルサイズ125万パラメータから70億パラメータまでの検索性能をベンチマークした。
その結果、ゼロショットBEIRタスクの検索性能は、LLMサイズ、トレーニング期間、推定FLOPと予測可能でスケールすることがわかった。
また,In-Context Learningスコアは検索タスク間の検索スコアと強く相関していることを示す。
最後に、LLMベースのレトリバーの開発において、これがもたらす意味を強調した。
関連論文リスト
- A Comparative Study of Specialized LLMs as Dense Retrievers [29.504113759761527]
本研究では,大規模言語モデル(LLM)におけるタスク固有適応が検索能力にどのように影響するかを系統的に検討する。
我々は,Qwen2.5 7B LLMをベース,命令調整,コード/マス特化,長い推論,視覚言語モデルを含む8つの実験を行った。
数学的特殊化と長い推論能力は、3つの設定で一貫した劣化を引き起こし、数学的推論とセマンティックマッチングの矛盾を示す。
論文 参考訳(メタデータ) (2025-07-05T08:50:29Z) - Large Language Models are Demonstration Pre-Selectors for Themselves [57.101804269100185]
大規模言語モデル(LLM)を備えたインコンテキスト学習(ICL)は、トレーニングデータ全体から数ショットのデモを選択することで、強力な数ショットのパフォーマンスを提供する。
FEw yet Essential Demonstration prE-selectoRは、デモの代表的なサブセットを特定する新しい事前選択フレームワークである。
FEwでもEssential Demonstration prE-selectoRは、パフォーマンスを維持しながら、トレーニングデータのサイズを20%以上削減できる。
論文 参考訳(メタデータ) (2025-06-06T12:29:03Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - CSPLADE: Learned Sparse Retrieval with Causal Language Models [12.930248566238243]
学習スパース検索(LSR)のための大規模言語モデル(LLM)の訓練における2つの課題を特定する。
本研究では,(1)トレーニング不安定を解消するための軽量適応訓練フェーズ,(2)双方向情報を実現するための2つのモデル変種を提案する。
これらの手法により,LSRモデルを8BスケールのLLMで学習し,インデックスサイズを縮小した競合検索性能を実現することができる。
論文 参考訳(メタデータ) (2025-04-15T02:31:34Z) - Let your LLM generate a few tokens and you will reduce the need for retrieval [1.0878040851638]
大規模言語モデル(LLM)は、パラメトリックメモリに解答がすでに格納されているかどうかをトレーニングすることができる。
IK(I Know)スコアを計算するためにLLM-as-a-judgeを蒸留する。
論文 参考訳(メタデータ) (2024-12-16T08:13:14Z) - Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。
文脈内学習の有効性は、選択した例の品質に大きく依存する。
高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:23:08Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。