論文の概要: Gradient Ascent Post-training Enhances Language Model Generalization
- arxiv url: http://arxiv.org/abs/2306.07052v1
- Date: Mon, 12 Jun 2023 11:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:49:13.391472
- Title: Gradient Ascent Post-training Enhances Language Model Generalization
- Title(参考訳): 学習後の勾配上昇による言語モデルの一般化
- Authors: Dongkeun Yoon, Joel Jang, Sungdong Kim, Minjoon Seo
- Abstract要約: GAPは、12の異なるNLPタスクに対して、LMを2~3倍大きなLMにできることを示す。
この結果から, GAPはタスク固有の微調整を伴わずに, LMの一般化能力を向上するための有望な手法である可能性が示唆された。
- 参考スコア(独自算出の注目度): 18.894205731157285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we empirically show that updating pretrained LMs (350M, 1.3B,
2.7B) with just a few steps of Gradient Ascent Post-training (GAP) on random,
unlabeled text corpora enhances its zero-shot generalization capabilities
across diverse NLP tasks. Specifically, we show that GAP can allow LMs to
become comparable to 2-3x times larger LMs across 12 different NLP tasks. We
also show that applying GAP on out-of-distribution corpora leads to the most
reliable performance improvements. Our findings indicate that GAP can be a
promising method for improving the generalization capability of LMs without any
task-specific fine-tuning.
- Abstract(参考訳): 本研究では,事前学習したLM(350M, 1.3B, 2.7B)を,ランダムな未ラベルテキストコーパス上でのグラディエント・アセンジ・ポスト・トレーニング(GAP)のほんの数ステップで更新することで,多様なNLPタスクにおけるゼロショット一般化能力を高めることを実証的に示す。
具体的には、GAPは、12の異なるNLPタスクに対して、LMを2~3倍大きなLMにできることを示す。
また,GAPをアウト・オブ・ディストリビューション・コーパスに適用すると,信頼性の高い性能向上がもたらされることを示す。
この結果から, GAPはタスク固有の微調整を伴わずに, LMの一般化能力を向上するための有望な手法である可能性が示唆された。
関連論文リスト
- Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Improving Translation Faithfulness of Large Language Models via
Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。
SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。
OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文 参考訳(メタデータ) (2023-08-24T09:32:29Z) - Generalized Sum Pooling for Metric Learning [21.45902496139412]
ディープラーニングのための学習可能な一般化和プーリング法(GSP)を提案する。
提案手法の有効性を4つの一般的なメトリクス学習ベンチマークで評価した。
論文 参考訳(メタデータ) (2023-08-18T01:20:25Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - Evidence > Intuition: Transferability Estimation for Encoder Selection [16.490047604583882]
我々は、全ての候補を微調整することなく、目標タスクにおいてどのLMが最善を尽くすかを予測する定量的な証拠を生成する。
我々は,コンピュータビジョン(CV)のLogME(Logarithm Maximum of Evidence)尺度を採用し,94%のセットアップにおいて,最終的なLM性能と正の相関関係があることを見出した。
論文 参考訳(メタデータ) (2022-10-20T13:25:21Z) - GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language
Pre-training [47.95914618851596]
プレトレーニング中の2つの通常適用ステップがプレトレーニングモデルの性能に決定的な影響を及ぼすことを示す。
そこで本研究では,IMM 用ハードネガティブサンプルのより効果的なマイニングのために,ミニバッチを適応的にサンプリングする,新しいビジョンと言語事前学習手法を提案する。
提案手法は,様々な下流タスクにおいて,計算コストをはるかに削減して,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T11:15:45Z) - Generating Training Data with Language Models: Towards Zero-Shot
Language Understanding [35.92571138322246]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。
提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
論文 参考訳(メタデータ) (2022-02-09T16:02:18Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。