Fugu-MT 論文翻訳(概要): Evolution without Large Models: Training Language Model with Task Principles

論文の概要: Evolution without Large Models: Training Language Model with Task Principles

arxiv url: http://arxiv.org/abs/2507.05991v1
Date: Tue, 08 Jul 2025 13:52:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:38.142878
Title: Evolution without Large Models: Training Language Model with Task Principles
Title（参考訳）: 大規模モデルのない進化:タスク原理による言語モデルの訓練
Authors: Minghang Zhu, Shen Gao, Zhengliang Shi, Jiabao Fang, Pengjie Ren, Zhaochun Ren, Zhumin Chen, Shuo Shang,
Abstract要約: 言語モデルの一般的なトレーニングアプローチは、人間が提供したデータセットを拡張するために、大規模な言語モデルを使用することである。この方法は、広範囲な人的データアノテーションの必要性を排除し、トレーニングコストを大幅に削減する。しかし、データ拡張時の二酸化炭素排出量の増加や、データ漏洩のリスクなど、依然として課題に直面している。
参考スコア（独自算出の注目度）: 52.44569608690695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A common training approach for language models involves using a large-scale language model to expand a human-provided dataset, which is subsequently used for model training.This method significantly reduces training costs by eliminating the need for extensive human data annotation. However, it still faces challenges such as high carbon emissions during data augmentation and the risk of data leakage when we use closed-source LLMs. To address these issues, we propose a self-evolution method for language models. First, we introduce the Multi-level Principle Generation, which enables a large-scale model to summarize task-completion principles based on a small amount of task data. Then, we propose the Principle-based Instance Generation, in which a smaller-scale language model uses these task principles to generate a large amount of data. This data is then used for model training. Experimental results show that our proposed method significantly improves model performance compared to directly using a smaller-scale language model to generate data. Additionally, since we only use the large-scale language model to generate the task-completion principles, the carbon emissions associated with training the model are greatly reduced.
Abstract（参考訳）: 言語モデルの一般的な訓練手法は、大規模言語モデルを用いて人間が提供するデータセットを拡張し、その後モデルトレーニングに使用される。しかし、データ拡張時の高炭素排出量や、クローズドソースLCMを使用する際のデータ漏洩のリスクなど、依然として課題に直面している。これらの問題に対処するために,言語モデルのための自己進化法を提案する。まず,少数のタスクデータに基づいて,大規模モデルでタスク補完の原則を要約する多段階原理生成手法を提案する。そこで本研究では,これらのタスクの原則を用いて大量のデータを生成する,原則に基づくインスタンス生成を提案する。このデータはモデルトレーニングに使用される。実験結果から,提案手法は,より小規模な言語モデルを用いてデータを生成する場合と比較して,モデル性能を著しく向上することが示された。また,タスク完了原理の生成には大規模言語モデルのみを用いるため,トレーニングに伴う炭素排出量が大幅に削減される。

関連論文リスト

KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model [27.25688303240741]
KaLM-Embeddingは、よりクリーンで、より多様な、ドメイン固有のトレーニングデータを活用する一般的な多言語埋め込みモデルである。我々のモデルは、性能を向上させることが証明された重要な技術で訓練されている。
論文参考訳（メタデータ） (2025-01-02T03:17:51Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。複数の言語にまたがる顕著な一貫性を示す。
論文参考訳（メタデータ） (2024-08-30T05:42:31Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
HARE: HumAn pRiors, a key to small language model Efficiency [6.253561984966316]
人間の先駆者は、ディープラーニングでデータを効率的に活用する上で重要な役割を担います。既存のSmall Language Modelは、主にWebスクラッドな大規模トレーニングデータに依存している。我々は、データ構築に人類の優先事項を活用する原則を提案する。
論文参考訳（メタデータ） (2024-06-17T10:56:03Z)
Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文参考訳（メタデータ） (2024-04-02T18:00:28Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文参考訳（メタデータ） (2022-04-13T21:39:15Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。 5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文参考訳（メタデータ） (2020-04-08T06:18:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。