論文の概要: Scaling Laws For Dense Retrieval
- arxiv url: http://arxiv.org/abs/2403.18684v1
- Date: Wed, 27 Mar 2024 15:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:19:17.950794
- Title: Scaling Laws For Dense Retrieval
- Title(参考訳): Dense Retrievalのためのスケーリング法則
- Authors: Yan Fang, Jingtao Zhan, Qingyao Ai, Jiaxin Mao, Weihang Su, Jia Chen, Yiqun Liu,
- Abstract要約: 本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
- 参考スコア(独自算出の注目度): 22.76001461620846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling up neural models has yielded significant advancements in a wide array of tasks, particularly in language generation. Previous studies have found that the performance of neural models frequently adheres to predictable scaling laws, correlated with factors such as training set size and model size. This insight is invaluable, especially as large-scale experiments grow increasingly resource-intensive. Yet, such scaling law has not been fully explored in dense retrieval due to the discrete nature of retrieval metrics and complex relationships between training data and model sizes in retrieval tasks. In this study, we investigate whether the performance of dense retrieval models follows the scaling law as other neural models. We propose to use contrastive log-likelihood as the evaluation metric and conduct extensive experiments with dense retrieval models implemented with different numbers of parameters and trained with different amounts of annotated data. Results indicate that, under our settings, the performance of dense retrieval models follows a precise power-law scaling related to the model size and the number of annotations. Additionally, we examine scaling with prevalent data augmentation methods to assess the impact of annotation quality, and apply the scaling law to find the best resource allocation strategy under a budget constraint. We believe that these insights will significantly contribute to understanding the scaling effect of dense retrieval models and offer meaningful guidance for future research endeavors.
- Abstract(参考訳): ニューラルネットワークのスケールアップは、特に言語生成において、幅広いタスクにおいて大きな進歩をもたらした。
従来の研究では、ニューラルネットワークの性能は予測可能なスケーリング法則によく準拠し、トレーニングセットのサイズやモデルサイズなどの要因と相関していた。
この洞察は、特に大規模な実験が資源集約化の度合いを増すにつれて、貴重である。
しかし、このようなスケーリング法則は、検索指標の離散的性質と、検索タスクにおけるトレーニングデータとモデルサイズの間の複雑な関係により、厳密な検索において完全には研究されていない。
本研究では,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを検討する。
そこで本研究では,異なるパラメータで実装し,異なる量の注釈付きデータで訓練した高密度検索モデルを用いて,比較対数類似度を評価指標として使用し,広範な実験を行うことを提案する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
さらに、アノテーションの品質への影響を評価するために、一般的なデータ拡張手法によるスケーリングについて検討し、予算制約の下で最適なリソース配分戦略を見つけるために、スケーリング法を適用した。
これらの知見は,高密度検索モデルのスケーリング効果の理解に大きく貢献し,今後の研究に有意義なガイダンスを提供すると考えられる。
関連論文リスト
- Unified Neural Network Scaling Laws and Scale-time Equivalence [10.918504301310753]
本稿では、モデルサイズ、トレーニング時間、データボリュームの3つの要因がどのように相互作用し、ディープニューラルネットワークの性能を決定するかという、新しい理論的特徴を示す。
まず、ニューラルネットワークのサイズを拡大し、トレーニング時間を比例的に増加させることで、理論的かつ経験的な等価性を確立する。
次に、スケール時間同値と二重降下の線形モデル解析を組み合わせ、統一された理論的スケーリング法則を得る。
論文 参考訳(メタデータ) (2024-09-09T16:45:26Z) - Information-Theoretic Foundations for Neural Scaling Laws [20.617552198581024]
我々は、ニューラルスケーリング法則のための情報理論の基礎を開発する。
データとモデルサイズの間の最適関係は、対数的要因まで線形であることが観察された。
論文 参考訳(メタデータ) (2024-06-28T02:20:54Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Revisiting Neural Scaling Laws in Language and Vision [43.57394336742374]
我々は、最適なパラメータを報告するのではなく、外挿損失に基づくより厳密な方法論を論じる。
本稿では,学習曲線から法則パラメータのスケーリングを確実に推定する手法を提案する。
複数のドメインにまたがる幅広いアーキテクチャファミリにおいて,従来手法よりも高精度に外挿できることを実証した。
論文 参考訳(メタデータ) (2022-09-13T09:41:51Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。