論文の概要: HARE: HumAn pRiors, a key to small language model Efficiency
- arxiv url: http://arxiv.org/abs/2406.11410v2
- Date: Tue, 18 Jun 2024 11:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 11:41:25.396770
- Title: HARE: HumAn pRiors, a key to small language model Efficiency
- Title(参考訳): HARE: HumAn pRiors
- Authors: Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu,
- Abstract要約: 人間の先駆者は、ディープラーニングでデータを効率的に活用する上で重要な役割を担います。
既存のSmall Language Modelは、主にWebスクラッドな大規模トレーニングデータに依存している。
我々は、データ構築に人類の優先事項を活用する原則を提案する。
- 参考スコア(独自算出の注目度): 6.253561984966316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human priors play a crucial role in efficiently utilizing data in deep learning. However, with the development of large language models (LLMs), there is an increasing emphasis on scaling both model size and data volume, which often diminishes the importance of human priors in data construction. Influenced by these trends, existing Small Language Models (SLMs) mainly rely on web-scraped large-scale training data, neglecting the proper incorporation of human priors. This oversight limits the training efficiency of language models in resource-constrained settings. In this paper, we propose a principle to leverage human priors for data construction. This principle emphasizes achieving high-performance SLMs by training on a concise dataset that accommodates both semantic diversity and data quality consistency, while avoiding benchmark data leakage. Following this principle, we train an SLM named HARE-1.1B. Extensive experiments on large-scale benchmark datasets demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs, validating the effectiveness of the proposed principle. Additionally, this provides new insights into efficient language model training in resource-constrained environments from the view of human priors.
- Abstract(参考訳): 人間の先駆者は、ディープラーニングでデータを効率的に活用する上で重要な役割を担います。
しかし、大規模言語モデル(LLM)の開発に伴い、モデルのサイズとデータボリュームのスケーリングに重点を置いている。
これらの傾向の影響を受け、既存のSLM(Small Language Models)は、主にウェブスクラッドな大規模トレーニングデータに依存しており、人間の事前の適切な組み入れを無視している。
これにより、リソース制約のある設定での言語モデルのトレーニング効率が制限される。
本稿では,データ構築に人類の優先事項を活用するための原則を提案する。
この原理は、ベンチマークデータの漏洩を回避しつつ、意味的多様性とデータ品質の整合性の両方に対応する簡潔なデータセットをトレーニングすることで、高性能なSLMを実現することを強調する。
この原則に従って、HARE-1.1BというSLMを訓練する。
大規模ベンチマークデータセットに対する大規模な実験により、HARE-1.1Bは最先端のSLMに対して好適に機能し、提案原則の有効性を検証した。
さらに、これは、人間の優先順位の観点から、リソース制約のある環境での効率的な言語モデルトレーニングに関する新たな洞察を提供する。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Correcting Large Language Model Behavior via Influence Function [44.090990384733324]
人間の好みのダイナミックな性質は、以前のトレーニングデータを時代遅れにしたり、あるいは誤ったものにしたりすることができる。
影響関数のリコールとポストトレーニングによる大規模言語モデル行動補正(LANCET)を提案する。
LANCETは、(1)好ましくないモデル出力に大きな影響を与えるトレーニングデータを特定するためにインフルエンス関数を使用し、(2)モデル動作を調整するためにインフルエンス関数駆動型ブレグマン最適化(IBO)技術を適用する。
論文 参考訳(メタデータ) (2024-12-21T02:50:08Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - Federated Learning for Early Dropout Prediction on Healthy Ageing
Applications [0.0]
我々は、プライバシの懸念を最小限に抑え、個々のデータを転送することなく分散トレーニングを可能にするフェデレーション機械学習(FML)アプローチを提案する。
その結果,FMLでトレーニングしたモデルの予測精度は,データ選択とクラス不均衡ハンドリング技術により有意に向上した。
論文 参考訳(メタデータ) (2023-09-08T13:17:06Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。