論文の概要: Improving Pre-trained Language Models' Generalization
- arxiv url: http://arxiv.org/abs/2307.10457v2
- Date: Sun, 6 Aug 2023 05:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 20:36:31.287754
- Title: Improving Pre-trained Language Models' Generalization
- Title(参考訳): 事前学習型言語モデルの一般化の改善
- Authors: Somayeh Ghanbarzadeh, Hamid Palangi, Yan Huang, Radames Cruz Moreno,
and Hamed Khanpour
- Abstract要約: Mask-tuning は Masked Language Modeling (MLM) トレーニング目標を微調整プロセスに統合し,PLM の一般化を促進する。
実験により、マスクチューニングは現在の最先端技術を上回ることが示された。
この結果から,マスクチューニングにより,見えないデータ上でのPLMの再利用性が向上し,現実のアプリケーションにおいてより実用的で効果的であることが示唆された。
- 参考スコア(独自算出の注目度): 9.534831387705312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reusability of state-of-the-art Pre-trained Language Models (PLMs) is
often limited by their generalization problem, where their performance
drastically decreases when evaluated on examples that differ from the training
dataset, known as Out-of-Distribution (OOD)/unseen examples. This limitation
arises from PLMs' reliance on spurious correlations, which work well for
frequent example types but not for general examples. To address this issue, we
propose a training approach called Mask-tuning, which integrates Masked
Language Modeling (MLM) training objectives into the fine-tuning process to
enhance PLMs' generalization. Comprehensive experiments demonstrate that
Mask-tuning surpasses current state-of-the-art techniques and enhances PLMs'
generalization on OOD datasets while improving their performance on
in-distribution datasets. The findings suggest that Mask-tuning improves the
reusability of PLMs on unseen data, making them more practical and effective
for real-world applications.
- Abstract(参考訳): 最先端の事前学習言語モデル(PLM)の再利用可能性はしばしば、その一般化問題によって制限され、トレーニングデータセットと異なる例であるOOD(Out-of-Distribution)/unseenの例で評価すると、その性能が劇的に低下する。
この制限はplmsがスプリアス相関に依存しており、頻繁な例型ではうまく機能するが、一般的な例ではうまく機能しない。
この問題に対処するため,我々は Masked Language Modeling (MLM) トレーニング目標を微調整プロセスに統合して PLM の一般化を向上する Mask-tuning というトレーニング手法を提案する。
総合的な実験により、Mask-tuningは現在の最先端技術を超え、PLMのOODデータセットへの一般化を促進しながら、分散データセットのパフォーマンスを改善している。
この結果から,マスクチューニングにより,見えないデータ上でのPLMの再利用性が向上し,現実のアプリケーションにおいてより実用的で効果的であることが示唆された。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - On the Generalization of Preference Learning with DPO [17.420727709895736]
大きな言語モデル(LLM)は目覚ましい能力を示してきたが、しばしば人間の好みに合わせるのに苦労している。
嗜好学習は、人間のフィードバックに基づいて、好ましくない反応と好ましくない反応を区別するモデルを訓練する。
本稿では、直接選好最適化(DPO)で訓練されたモデルの一般化保証を解析するための新しい理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-08-06T22:11:00Z) - Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。
我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。
実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T17:49:59Z) - From Robustness to Improved Generalization and Calibration in Pre-trained Language Models [0.0]
本稿では,前訓練言語モデル(PLM)の性能向上において,ジャコビアン正規化とヘッセン正規化によって達成される表現の滑らかさの役割について検討する。
PLM中間表現におけるヤコビ行列とヘッセン行列のノルムを最小化する新しい二相正規化手法であるジャコビウスを導入する。
GLUEベンチマークを用いて評価したところ, JacHess は PLM の領域内一般化とキャリブレーションを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2024-03-31T18:08:37Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Can LMs Generalize to Future Data? An Empirical Analysis on Text
Summarization [50.20034493626049]
最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。
既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重複する。
要約モデルに格納されたパラメトリック知識は、将来のデータに対する生成した要約の忠実度に大きく影響することを示す。
論文 参考訳(メタデータ) (2023-05-03T08:08:07Z) - Provable Generalization of Overparameterized Meta-learning Trained with
SGD [62.892930625034374]
我々は、広く使われているメタラーニング手法、モデル非依存メタラーニング(MAML)の一般化について研究する。
我々は、MAMLの過大なリスクに対して、上界と下界の両方を提供し、SGDダイナミクスがこれらの一般化境界にどのように影響するかをキャプチャする。
理論的知見は実験によってさらに検証される。
論文 参考訳(メタデータ) (2022-06-18T07:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。