論文の概要: ChapGTP, ILLC's Attempt at Raising a BabyLM: Improving Data Efficiency
by Automatic Task Formation
- arxiv url: http://arxiv.org/abs/2310.11282v1
- Date: Tue, 17 Oct 2023 14:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:40:15.111063
- Title: ChapGTP, ILLC's Attempt at Raising a BabyLM: Improving Data Efficiency
by Automatic Task Formation
- Title(参考訳): ChapGTP, ILLCによるベイビーフィルムのライジングの試み: 自動タスク形成によるデータ効率の向上
- Authors: Jaap Jumelet, Michael Hanna, Marianne de Heer Kloots, Anna Langedijk,
Charlotte Pouw, Oskar van der Wal
- Abstract要約: アムステルダム大学におけるILLCのBabyLMチャレンジへの提出(Warstadt et al., 2023)
最後のモデルであるChapGTPは200のエポックでトレーニングされたマスキング言語モデルであり、Automatic Task Formationと呼ばれる新しいデータ拡張技術によって支援されている。
本稿では,BLiMP,(Super)GLUE,MSGSの3つの評価スイートにおいて,このモデルの性能について詳細に論じる。
- 参考スコア(独自算出の注目度): 5.472046616411226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the submission of the ILLC at the University of Amsterdam to the
BabyLM challenge (Warstadt et al., 2023), in the strict-small track. Our final
model, ChapGTP, is a masked language model that was trained for 200 epochs,
aided by a novel data augmentation technique called Automatic Task Formation.
We discuss in detail the performance of this model on the three evaluation
suites: BLiMP, (Super)GLUE, and MSGS. Furthermore, we present a wide range of
methods that were ultimately not included in the model, but may serve as
inspiration for training LMs in low-resource settings.
- Abstract(参考訳): 我々は,アムステルダム大学のbabylm challenge (warstadt et al., 2023) への illc の提出について,厳格な小型トラックで紹介する。
最後のモデルであるChapGTPは200のエポックでトレーニングされたマスキング言語モデルであり、Automatic Task Formationと呼ばれる新しいデータ拡張技術によって支援されている。
本稿では,BLiMP,(Super)GLUE,MSGSの3つの評価スイートにおいて,このモデルの性能について詳細に論じる。
さらに,最終的にはモデルに含まれなかったが,低リソース環境でのlmsトレーニングにインスピレーションを与える可能性がある,幅広い手法を提案する。
関連論文リスト
- Domain Adaptation of Llama3-70B-Instruct through Continual Pre-Training and Model Merging: A Comprehensive Evaluation [31.61985215677114]
SECデータに対するMeta-Llama-3-70B-Instructモデルのドメイン適応に関する広範な実験を行った。
我々の焦点は、継続事前学習(CPT)とモデルのマージであり、モデルのドメイン固有の機能を強化することを目的としていた。
これは、プロセス全体を理解するための徹底的な評価を備えた、プレプリントの技術レポートです。
論文 参考訳(メタデータ) (2024-06-21T08:29:31Z) - Lil-Bevo: Explorations of Strategies for Training Language Models in
More Humanlike Ways [14.480574407610424]
我々は、BabyLM Challengeへの応募であるLil-Bevoを紹介します。
私たちのベースラインモデルは、偶然以上に実行されましたが、より多くのデータに基づいてトレーニングされたより大きなLLMのパフォーマンスレベルよりもはるかに低いものでした。
ターゲットとするMasked Language Modelingの拡張は、モデルパフォーマンスを全般的に向上させるには至らなかったが、ターゲットとする特定のBLiMPタスクのいくつかに役立つように思われた。
論文 参考訳(メタデータ) (2023-10-26T17:13:07Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Baby Llama: knowledge distillation from an ensemble of teachers trained
on a small dataset with no performance penalty [0.0]
我々は,GPT-2と小さなLLaMAモデルからなるアンサンブルを,発達的に予測可能な10MワードのBabyLMデータセットで訓練した。
我々は, 58MパラメータのLLaMAモデルを用いて蒸留を行った。
論文 参考訳(メタデータ) (2023-08-03T20:20:01Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。