論文の概要: Evolution without Large Models: Training Language Model with Task Principles
- arxiv url: http://arxiv.org/abs/2507.05991v1
- Date: Tue, 08 Jul 2025 13:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.142878
- Title: Evolution without Large Models: Training Language Model with Task Principles
- Title(参考訳): 大規模モデルのない進化:タスク原理による言語モデルの訓練
- Authors: Minghang Zhu, Shen Gao, Zhengliang Shi, Jiabao Fang, Pengjie Ren, Zhaochun Ren, Zhumin Chen, Shuo Shang,
- Abstract要約: 言語モデルの一般的なトレーニングアプローチは、人間が提供したデータセットを拡張するために、大規模な言語モデルを使用することである。
この方法は、広範囲な人的データアノテーションの必要性を排除し、トレーニングコストを大幅に削減する。
しかし、データ拡張時の二酸化炭素排出量の増加や、データ漏洩のリスクなど、依然として課題に直面している。
- 参考スコア(独自算出の注目度): 52.44569608690695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common training approach for language models involves using a large-scale language model to expand a human-provided dataset, which is subsequently used for model training.This method significantly reduces training costs by eliminating the need for extensive human data annotation. However, it still faces challenges such as high carbon emissions during data augmentation and the risk of data leakage when we use closed-source LLMs. To address these issues, we propose a self-evolution method for language models. First, we introduce the Multi-level Principle Generation, which enables a large-scale model to summarize task-completion principles based on a small amount of task data. Then, we propose the Principle-based Instance Generation, in which a smaller-scale language model uses these task principles to generate a large amount of data. This data is then used for model training. Experimental results show that our proposed method significantly improves model performance compared to directly using a smaller-scale language model to generate data. Additionally, since we only use the large-scale language model to generate the task-completion principles, the carbon emissions associated with training the model are greatly reduced.
- Abstract(参考訳): 言語モデルの一般的な訓練手法は、大規模言語モデルを用いて人間が提供するデータセットを拡張し、その後モデルトレーニングに使用される。
しかし、データ拡張時の高炭素排出量や、クローズドソースLCMを使用する際のデータ漏洩のリスクなど、依然として課題に直面している。
これらの問題に対処するために,言語モデルのための自己進化法を提案する。
まず,少数のタスクデータに基づいて,大規模モデルでタスク補完の原則を要約する多段階原理生成手法を提案する。
そこで本研究では,これらのタスクの原則を用いて大量のデータを生成する,原則に基づくインスタンス生成を提案する。
このデータはモデルトレーニングに使用される。
実験結果から,提案手法は,より小規模な言語モデルを用いてデータを生成する場合と比較して,モデル性能を著しく向上することが示された。
また,タスク完了原理の生成には大規模言語モデルのみを用いるため,トレーニングに伴う炭素排出量が大幅に削減される。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - HARE: HumAn pRiors, a key to small language model Efficiency [6.253561984966316]
人間の先駆者は、ディープラーニングでデータを効率的に活用する上で重要な役割を担います。
既存のSmall Language Modelは、主にWebスクラッドな大規模トレーニングデータに依存している。
我々は、データ構築に人類の優先事項を活用する原則を提案する。
論文 参考訳(メタデータ) (2024-06-17T10:56:03Z) - Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。
この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。
本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文 参考訳(メタデータ) (2024-04-02T18:00:28Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。