Fugu-MT 論文翻訳(概要): TinyHelen's First Curriculum: Training and Evaluating Tiny Language Models in a Simpler Language Environment

論文の概要: TinyHelen's First Curriculum: Training and Evaluating Tiny Language Models in a Simpler Language Environment

arxiv url: http://arxiv.org/abs/2501.00522v1
Date: Tue, 31 Dec 2024 16:08:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:31.747122
Title: TinyHelen's First Curriculum: Training and Evaluating Tiny Language Models in a Simpler Language Environment
Title（参考訳）: TinyHelen氏の最初のカリキュラム: より単純な言語環境におけるTiny言語モデルのトレーニングと評価
Authors: Ke Yang, Volodymyr Kindratenko, ChengXiang Zhai,
Abstract要約: トレーニング言語モデル(LM)とそのアプリケーションエージェントは、大規模なデータセットとモデルのために、ますますコストがかかる。ノイズを排除し、語彙を最小化し、ジャンル固有のパターンを維持することで、テキストデータを洗練するためのパイプラインを提案する。実験により,ランダー事前学習がLM学習効率を向上させることが示された。
参考スコア（独自算出の注目度）: 30.93798042712827
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training language models (LMs) and their application agents is increasingly costly due to large datasets and models, making test failures difficult to bear. Simplified language environments serve as primordial training and testing grounds, retaining essential commonsense and communication skills but in a more digestible form, potentially enhancing the learning efficiency of LMs, and thus reducing the required model size and data volume for effective training and evaluation. In these simplified language environments, workable strategies for small models, datasets, and agents may be adaptable to larger models, datasets, and agents in complex language environments. To create such environments, we focus on two aspects: i) minimizing language dataset noise and complexity, and ii) preserving the essential text distribution characteristics. Unlike previous methods, we propose a pipeline to refine text data by eliminating noise, minimizing vocabulary, and maintaining genre-specific patterns (e.g., for books, conversation, code, etc.). Implementing this pipeline with large LMs, we have created a leaner suite of LM training and evaluation datasets: 71M Leaner-Pretrain, 7M Leaner-Instruct, Leaner-Glue for assessing linguistic proficiency, and Leaner-Eval for testing instruction-following ability. Our experiments show that leaner pre-training boosts LM learning efficiency. Tiny LMs trained on these datasets outperform those trained on original datasets in instruction-following across different language granularity levels. Moreover, the Leaner-Pretrain dataset's alignment with conventional large LM training sets enables resource-optimized analysis of how learning objectives, model architectures, and training techniques impact performance on language modeling and downstream tasks. Our code and datasets are available at https://github.com/EmpathYang/TinyHelen.git.
Abstract（参考訳）: トレーニング言語モデル(LM)とそのアプリケーションエージェントは、大規模なデータセットとモデルのため、ますますコストがかかり、テストの失敗に耐えるのが難しくなる。単純化された言語環境は、原始的な訓練とテストの場として機能し、必須のコモンセンスとコミュニケーションスキルを保ちながら、より消化しやすい形で、LMの学習効率を向上し、効果的なトレーニングと評価のために必要となるモデルサイズとデータボリュームを削減できる。これらの単純化された言語環境では、小さなモデル、データセット、エージェントの実行可能な戦略は、複雑な言語環境におけるより大きなモデル、データセット、エージェントに適応することができる。このような環境を作るために、私たちは2つの側面に注目します。一言語データセットのノイズ及び複雑さの最小化及び二本質的なテキスト配信特性を保持すること。従来の手法と異なり,ノイズを排除し,語彙を最小化し,ジャンル固有のパターン(書籍,会話,コードなど)を維持することで,テキストデータを洗練するためのパイプラインを提案する。 71M Leaner-Pretrain、7M Leaner-Instruct、言語的習熟度を評価するLeaner-Glue、命令フォロー能力をテストするLeaner-Eval。実験により,ランダー事前学習がLM学習効率を向上させることが示された。これらのデータセットでトレーニングされた小さなLMは、異なる言語の粒度レベルにわたる命令フォローにおいて、元のデータセットでトレーニングされたデータセットよりも優れています。さらに、Leaner-Pretrainデータセットと従来の大規模LMトレーニングセットとのアライメントは、学習目標、モデルアーキテクチャ、トレーニングテクニックが言語モデリングや下流タスクのパフォーマンスに与える影響について、リソース最適化分析を可能にする。私たちのコードとデータセットはhttps://github.com/EmpathYang/TinyHelen.git.comで公開されています。

関連論文リスト

Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。 mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文参考訳（メタデータ） (2025-02-14T13:10:39Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-12-13T16:13:35Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文参考訳（メタデータ） (2024-06-21T20:02:22Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
Concept-aware Training Improves In-context Learning Ability of Language Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。テキスト内情報をよりよく活用できるLMを作成する手法を提案する。概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文参考訳（メタデータ） (2023-05-23T07:44:52Z)
Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文参考訳（メタデータ） (2023-05-16T03:38:06Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Fine-tuning BERT for Low-Resource Natural Language Understanding via Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文参考訳（メタデータ） (2020-12-04T08:34:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。