論文の概要: HARE: HumAn pRiors, a key to small language model Efficiency
- arxiv url: http://arxiv.org/abs/2406.11410v2
- Date: Tue, 18 Jun 2024 11:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-19 11:41:25.396770
- Title: HARE: HumAn pRiors, a key to small language model Efficiency
- Title(参考訳): HARE: HumAn pRiors
- Authors: Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu,
- Abstract要約: 人間の先駆者は、ディープラーニングでデータを効率的に活用する上で重要な役割を担います。
既存のSmall Language Modelは、主にWebスクラッドな大規模トレーニングデータに依存している。
我々は、データ構築に人類の優先事項を活用する原則を提案する。
- 参考スコア(独自算出の注目度): 6.253561984966316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human priors play a crucial role in efficiently utilizing data in deep learning. However, with the development of large language models (LLMs), there is an increasing emphasis on scaling both model size and data volume, which often diminishes the importance of human priors in data construction. Influenced by these trends, existing Small Language Models (SLMs) mainly rely on web-scraped large-scale training data, neglecting the proper incorporation of human priors. This oversight limits the training efficiency of language models in resource-constrained settings. In this paper, we propose a principle to leverage human priors for data construction. This principle emphasizes achieving high-performance SLMs by training on a concise dataset that accommodates both semantic diversity and data quality consistency, while avoiding benchmark data leakage. Following this principle, we train an SLM named HARE-1.1B. Extensive experiments on large-scale benchmark datasets demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs, validating the effectiveness of the proposed principle. Additionally, this provides new insights into efficient language model training in resource-constrained environments from the view of human priors.
- Abstract(参考訳): 人間の先駆者は、ディープラーニングでデータを効率的に活用する上で重要な役割を担います。
しかし、大規模言語モデル(LLM)の開発に伴い、モデルのサイズとデータボリュームのスケーリングに重点を置いている。
これらの傾向の影響を受け、既存のSLM(Small Language Models)は、主にウェブスクラッドな大規模トレーニングデータに依存しており、人間の事前の適切な組み入れを無視している。
これにより、リソース制約のある設定での言語モデルのトレーニング効率が制限される。
本稿では,データ構築に人類の優先事項を活用するための原則を提案する。
この原理は、ベンチマークデータの漏洩を回避しつつ、意味的多様性とデータ品質の整合性の両方に対応する簡潔なデータセットをトレーニングすることで、高性能なSLMを実現することを強調する。
この原則に従って、HARE-1.1BというSLMを訓練する。
大規模ベンチマークデータセットに対する大規模な実験により、HARE-1.1Bは最先端のSLMに対して好適に機能し、提案原則の有効性を検証した。
さらに、これは、人間の優先順位の観点から、リソース制約のある環境での効率的な言語モデルトレーニングに関する新たな洞察を提供する。
関連論文リスト
- Reasoning to Learn from Latent Thoughts [45.59740535714148]
そこで本研究では,テキスト生成プロセスの根底にある潜在的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上できることを示す。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
推論スケーリングとEMイテレーションのメリットは、データ制約付き事前トレーニングをスケールする新たな機会を示唆している。
論文 参考訳(メタデータ) (2025-03-24T16:41:23Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Correcting Large Language Model Behavior via Influence Function [44.090990384733324]
人間の好みのダイナミックな性質は、以前のトレーニングデータを時代遅れにしたり、あるいは誤ったものにしたりすることができる。
影響関数のリコールとポストトレーニングによる大規模言語モデル行動補正(LANCET)を提案する。
LANCETは、(1)好ましくないモデル出力に大きな影響を与えるトレーニングデータを特定するためにインフルエンス関数を使用し、(2)モデル動作を調整するためにインフルエンス関数駆動型ブレグマン最適化(IBO)技術を適用する。
論文 参考訳(メタデータ) (2024-12-21T02:50:08Z) - Training Data for Large Language Model [2.1178416840822027]
ChatGPTは、事前学習コーパスのパラメータとスケールの点で、以前のモデルを上回った。
ChatGPTは、大量の高品質な人間注釈付きデータを微調整することで、革命的なパフォーマンス向上を実現した。
本稿では,大規模言語モデルの事前学習と微調整の現状を概説する。
論文 参考訳(メタデータ) (2024-11-12T11:09:58Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - Self-Influence Guided Data Reweighting for Language Model Pre-training [46.57714637505164]
言語モデル (LM) は、様々なNLPタスクのためのモデルを開発するためのデフォルトの出発点となっている。
コーパス内のすべてのデータサンプルは、LM事前トレーニング中に同等に重要視される。
データの関連性や品質のレベルが異なるため、すべてのデータサンプルと同等の重要性が最適な選択ではないかもしれない。
本稿では,サンプルの重要度と事前学習の指標として自己影響(SI)スコアを活用することで,サンプルを共同で重み付けするPreSenceを提案する。
論文 参考訳(メタデータ) (2023-11-02T01:00:46Z) - Federated Learning for Early Dropout Prediction on Healthy Ageing
Applications [0.0]
我々は、プライバシの懸念を最小限に抑え、個々のデータを転送することなく分散トレーニングを可能にするフェデレーション機械学習(FML)アプローチを提案する。
その結果,FMLでトレーニングしたモデルの予測精度は,データ選択とクラス不均衡ハンドリング技術により有意に向上した。
論文 参考訳(メタデータ) (2023-09-08T13:17:06Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Neural Semi-supervised Learning for Text Classification Under
Large-Scale Pretraining [51.19885385587916]
我々は、大規模LM事前学習の文脈下で、テキスト分類タスクにおける半教師あり学習の研究を行う。
我々の研究は、大規模事前学習の文脈下でのセミ教師付き学習モデルの振る舞いを理解するための最初のステップである。
論文 参考訳(メタデータ) (2020-11-17T13:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。