論文の概要: Selecting Informative Contexts Improves Language Model Finetuning
- arxiv url: http://arxiv.org/abs/2005.00175v3
- Date: Thu, 19 May 2022 22:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:37:35.899685
- Title: Selecting Informative Contexts Improves Language Model Finetuning
- Title(参考訳): 言語モデルの微調整を改善するインフォーマティブコンテキストの選択
- Authors: Richard Antonello, Nicole Beckage, Javier Turek, and Alexander Huth
- Abstract要約: 本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。
微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
- 参考スコア(独自算出の注目度): 66.26521454263343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model fine-tuning is essential for modern natural language
processing, but is computationally expensive and time-consuming. Further, the
effectiveness of fine-tuning is limited by the inclusion of training examples
that negatively affect performance. Here we present a general fine-tuning
method that we call information gain filtration for improving the overall
training efficiency and final performance of language model fine-tuning. We
define the information gain of an example as the improvement on a test metric
after training on that example. A secondary learner is then trained to
approximate this quantity. During fine-tuning, this learner selects informative
examples and skips uninformative ones. We show that our method has consistent
improvement across datasets, fine-tuning tasks, and language model
architectures. For example, we achieve a median perplexity of 54.0 on a books
dataset compared to 57.3 for standard fine-tuning. We present statistical
evidence that offers insight into the improvements of our method over standard
fine-tuning. The generality of our method leads us to propose a new paradigm
for language model fine-tuning -- we encourage researchers to release
pretrained secondary learners on common corpora to promote efficient and
effective fine-tuning, thereby improving the performance and reducing the
overall energy footprint of language model fine-tuning.
- Abstract(参考訳): 言語モデルの微調整は現代の自然言語処理には不可欠であるが、計算に高価で時間を要する。
さらに、微調整の有効性は、パフォーマンスに悪影響を及ぼすトレーニング例を含めることによって制限される。
本稿では,言語モデルファインチューニングの総合的訓練効率と最終性能を改善するため,情報ゲインフィルタと呼ぶ汎用的なファインチューニング手法を提案する。
我々は、サンプルの情報ゲインを、そのサンプルのトレーニング後のテストメトリクスの改善として定義する。
その後、二次学習者がこの量を近似するように訓練される。
微調整中、学習者は情報的サンプルを選択し、非情報的サンプルをスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャにまたがって一貫した改善が得られた。
例えば、書籍データセットの平均パープレキシティは54.0であり、標準的な微調整では57.3である。
標準的な微調整よりも,提案手法の改善に関する洞察を与える統計的証拠を提示する。
提案手法の一般化により,言語モデルファインチューニングの新たなパラダイムが提案され,研究者は学習者に対して,学習者の事前学習を共通コーパス上にリリースして,効率的かつ効果的なファインチューニングを促進するとともに,性能の向上と言語モデルファインチューニングの全体的なエネルギーフットプリントの削減を図っている。
関連論文リスト
- Transfer Learning for Finetuning Large Language Models [36.047470973893155]
大規模言語モデルの微調整のための移動学習について検討する。
メタ学習性能とコスト代理モデルを用いて、新しいメタデータセットからグレーボックスメタ最適化の微調整を学習する。
本研究は,大規模言語モデルをより効果的に適応するファインタニングの伝達性を示すものである。
論文 参考訳(メタデータ) (2024-11-02T09:43:12Z) - Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - Less for More: Enhancing Preference Learning in Generative Language Models with Automated Self-Curation of Training Corpora [4.008122785948581]
言語における曖昧さは、より強化された言語モデルを開発する上での課題である。
本稿では,これらのデータセットを直接トレーニングしたプロキシモデルを活用することで,アノテーション付きデータセットを前処理するセルフキュレーション手法を提案する。
提案手法は,データセット内の曖昧なアノテーションを自動的に検出し,削除することにより,嗜好学習を強化する。
論文 参考訳(メタデータ) (2024-08-23T02:27:14Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based
Masked Language-models [51.53936551681613]
我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。
彼らは、ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-18T16:09:21Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。