Fugu-MT 論文翻訳(概要): Skill-it! A Data-Driven Skills Framework for Understanding and Training Language Models

論文の概要: Skill-it! A Data-Driven Skills Framework for Understanding and Training Language Models

arxiv url: http://arxiv.org/abs/2307.14430v1
Date: Wed, 26 Jul 2023 18:01:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-28 16:57:40.094595
Title: Skill-it! A Data-Driven Skills Framework for Understanding and Training Language Models
Title（参考訳）: スキル・イット! 言語モデルの理解と訓練のためのデータ駆動スキルフレームワーク
Authors: Mayee F. Chen, Nicholas Roberts, Kush Bhatia, Jue Wang, Ce Zhang, Frederic Sala, Christopher R\'e
Abstract要約: 本稿では,タスク間のダウンストリームモデルの性能向上につながるデータの選択方法について検討する。簡単な仮説に基づく新しいフレームワークを開発する。人間が意図的な順序で相互依存するスキルを取得するのと同じように、言語モデルもトレーニングデータから一連のスキルを学ぶ際に自然な順序に従う。
参考スコア（独自算出の注目度）: 29.17711426767209
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The quality of training data impacts the performance of pre-trained large language models (LMs). Given a fixed budget of tokens, we study how to best select data that leads to good downstream model performance across tasks. We develop a new framework based on a simple hypothesis: just as humans acquire interdependent skills in a deliberate order, language models also follow a natural order when learning a set of skills from their training data. If such an order exists, it can be utilized for improved understanding of LMs and for data-efficient training. Using this intuition, our framework formalizes the notion of a skill and of an ordered set of skills in terms of the associated data. First, using both synthetic and real data, we demonstrate that these ordered skill sets exist, and that their existence enables more advanced skills to be learned with less data when we train on their prerequisite skills. Second, using our proposed framework, we introduce an online data sampling algorithm, Skill-It, over mixtures of skills for both continual pre-training and fine-tuning regimes, where the objective is to efficiently learn multiple skills in the former and an individual skill in the latter. On the LEGO synthetic in the continual pre-training setting, Skill-It obtains 36.5 points higher accuracy than random sampling. On the Natural Instructions dataset in the fine-tuning setting, Skill-It reduces the validation loss on the target skill by 13.6% versus training on data associated with the target skill itself. We apply our skills framework on the recent RedPajama dataset to continually pre-train a 3B-parameter LM, achieving higher accuracy on the LM Evaluation Harness with 1B tokens than the baseline approach of sampling uniformly over data sources with 3B tokens.
Abstract（参考訳）: トレーニングデータの質は、事前訓練された大規模言語モデル(LM)の性能に影響を及ぼす。トークンの固定された予算を前提として、タスク間のダウンストリームモデルのパフォーマンスを向上する最適なデータ選択方法を検討する。簡単な仮説に基づく新しいフレームワークを開発する。人間が意図的な順序で相互依存スキルを取得するのと同じように、言語モデルもトレーニングデータから一連のスキルを学ぶ際に自然な順序に従う。このような順序が存在する場合、LMの理解の向上やデータ効率のトレーニングに利用できる。この直観を用いて、我々のフレームワークは、関連するデータの観点から、スキルの概念と順序付けられたスキルセットを定式化する。まず、合成データと実データの両方を用いて、これらの順序づけられたスキルセットの存在を実証し、それらの存在によって、より高度なスキルがより少ないデータで学習できることを示す。第2に,提案手法を用いて,前者のスキルと後者のスキルを効率的に学習することを目的とした,継続的な事前学習と微調整の両方のスキルを混合した,オンラインデータサンプリングアルゴリズムであるスキルイットを提案する。 Skill-Itは、連続的な事前トレーニング設定におけるLEGO合成において、ランダムサンプリングよりも36.5ポイント高い精度を得る。微調整設定の自然命令データセットでは、目標スキル自体に関連するデータに対するトレーニングに比べて、目標スキルのバリデーション損失を13.6%削減する。我々は最近のRedPajamaデータセットにスキル・フレームワークを適用し、3BパラメータのLMを継続的に事前訓練し、1BトークンによるLM評価ハーネスを、3Bトークンによるデータソースを均一にサンプリングするベースラインアプローチよりも高い精度で達成する。

関連論文リスト

Predictive Data Selection: The Data That Predicts Is the Data That Teaches [18.99777355043385]
予測データ選択(PreSelect)は,高速テキストベースのスコアラのみのトレーニングとデプロイを必要とする軽量で効率的なデータ選択手法である。我々は、PreSelectで選択された30Bトークンでトレーニングされたモデルが300Bトークンでトレーニングされたバニラベースラインのパフォーマンスを上回ることを示した。
論文参考訳（メタデータ） (2025-03-02T09:21:28Z)
Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training [51.60874286674908]
我々は,事前学習データと知識保持に密接に結びついているCBQAタスクの性能予測に焦点をあてる。 1)事前学習プロセス全体,特にデータ構築を習得すること,2)モデルの知識保持を評価すること,3)トレーニング前に利用可能な情報のみを使用してタスク固有の知識保持を予測すること,の3つの課題に対処する。本稿では,事前学習データ,モデルサイズ,タスク固有の知識保持との関係を定量化する情報理論尺度であるSMIメトリクスを紹介する。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
Dynamic Skill Adaptation for Large Language Models [78.31322532135272]
動的スキル適応(Dynamic Skill Adaptation, DSA)は, 言語モデル(LLM)に新しい複雑なスキルを適応させる適応的かつ動的フレームワークである。各スキルに対して,学習前スキルの詳細な記述を含む教科書的データと,学習前スキルの具体的活用を目標とした演習的データの両方を生成する。 LLAMA や Mistral のような大規模言語モデルを用いた実験は,提案手法が数学推論スキルや社会学習スキルに適応する上で有効であることを示す。
論文参考訳（メタデータ） (2024-12-26T22:04:23Z)
QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文参考訳（メタデータ） (2024-02-15T06:36:07Z)
JOBSKAPE: A Framework for Generating Synthetic Job Postings to Enhance Skill Matching [18.94748873243611]
JobSkapeは、スキル・ツー・タコノミーマッチングのための合成データを生成するフレームワークである。このフレームワーク内では、ジョブ投稿の包括的な合成データセットであるSkillSkapeを作成します。本稿では,大規模言語モデルを用いたスキル抽出とマッチングタスクのための多段階パイプラインを提案する。
論文参考訳（メタデータ） (2024-02-05T17:57:26Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-26T18:41:23Z)
Design of Negative Sampling Strategies for Distantly Supervised Skill Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。 ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文参考訳（メタデータ） (2022-09-13T13:37:06Z)
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文参考訳（メタデータ） (2022-03-10T06:23:41Z)
Learning to be a Statistician: Learned Estimator for Number of Distinct Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文参考訳（メタデータ） (2022-02-06T15:42:04Z)
On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文参考訳（メタデータ） (2021-09-08T10:39:57Z)
BiFair: Training Fair Models with Bilevel Optimization [8.2509884277533]
我々は,ユーティリティの最小化と公正な関心の喪失を両立させる,BiFairという新しいトレーニングアルゴリズムを開発した。我々のアルゴリズムは、常により良い性能、すなわち、与えられた公正度メトリックのより優れた値、あるいはより高い精度で到達する。
論文参考訳（メタデータ） (2021-06-03T22:36:17Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。