論文の概要: From Robustness to Improved Generalization and Calibration in Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2404.00758v1
- Date: Sun, 31 Mar 2024 18:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 01:51:24.327055
- Title: From Robustness to Improved Generalization and Calibration in Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルにおけるロバスト性から一般化と校正の改善へ
- Authors: Josip Jukić, Jan Šnajder,
- Abstract要約: 本稿では,前訓練言語モデル(PLM)の性能向上において,ジャコビアン正規化とヘッセン正規化によって達成される表現の滑らかさの役割について検討する。
PLM中間表現におけるヤコビ行列とヘッセン行列のノルムを最小化する新しい二相正規化手法であるジャコビウスを導入する。
GLUEベンチマークを用いて評価したところ, JacHess は PLM の領域内一般化とキャリブレーションを大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing generalization and uncertainty quantification in pre-trained language models (PLMs) is crucial for their effectiveness and reliability. Building on machine learning research that established the importance of robustness for improving generalization, we investigate the role of representation smoothness, achieved via Jacobian and Hessian regularization, in enhancing PLM performance. Although such regularization methods have proven effective in computer vision, their application in natural language processing (NLP), where PLM inputs are derived from a discrete domain, poses unique challenges. We introduce a novel two-phase regularization approach, JacHess, which minimizes the norms of the Jacobian and Hessian matrices within PLM intermediate representations relative to their inputs. Our evaluation using the GLUE benchmark demonstrates that JacHess significantly improves in-domain generalization and calibration in PLMs, outperforming unregularized fine-tuning and other similar regularization methods.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)の一般化と不確実性定量化の促進は,その有効性と信頼性に不可欠である。
一般化向上のためのロバスト性の重要性を立証した機械学習研究に基づいて, ヤコビアン正規化とヘッセン正規化によって達成された表現の滑らか性の役割について検討した。
このような正規化手法はコンピュータビジョンにおいて有効であることが証明されているが、PLM入力が離散領域から導出される自然言語処理(NLP)への応用は、ユニークな課題を生んでいる。
本稿では, PLM 中間表現におけるヤコビ行列とヘッセン行列のノルムを最小化する2相正規化手法である JacHess を導入する。
GLUE ベンチマークを用いて評価したところ,JacHess は PLM の領域内一般化とキャリブレーションを著しく改善し,非正規化微調整法や類似の正規化法よりも優れていた。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization [78.61621802973262]
トレーニング済み重量を効率的に更新するための直交微調整法を提案する。
クロスレギュラー化戦略はゼロショットの一般化の観点から安定性を維持するためにも用いられる。
提案手法は,タスク固有の知識を表現するために,事前学習した重み空間を明示的に操るものであることを実証するために,広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Gaussian Stochastic Weight Averaging for Bayesian Low-Rank Adaptation of Large Language Models [5.352221132808875]
細調整された大規模言語モデル(LLM)は、しばしば過剰な自信とキャリブレーションに悩まされる。
本稿では,Low-Rank Adaptation (LoRA) とGaussian Weight Averaging (SWAG) を組み合わせた簡単な組み合わせを提案する。
本手法は,配電系統における配電系統の性能向上を反映して,配電系統の配電系統変更に対するロバスト性が高いことを示す。
論文 参考訳(メタデータ) (2024-05-06T12:44:37Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Improving generalisation via anchor multivariate analysis [4.755199731453481]
そこで我々は,ORD(out-of-distribution)一般化を改善するために,因果正則化拡張をアンカー回帰(AR)に導入した。
分散シフトに対してロバスト性を確保するために、アンカーフレームワークと整合して、アンカー互換の損失を提示する。
単純な正規化はOOD設定の堅牢性を高めることを観察する。
論文 参考訳(メタデータ) (2024-03-04T09:21:10Z) - Evolving Domain Adaptation of Pretrained Language Models for Text
Classification [24.795214770636534]
進化するドメインシフト(EDS)の中で、時系列テキスト分類に事前訓練された言語モデル(PLM)を適用することは、スタンス検出のようなアプリケーションにおける精度を維持するために重要である。
本研究では, 自己学習, ドメイン・アドバイザリ・トレーニング, ドメイン・アダプティブ・プレトレーニングなど, 進化するドメイン適応(EDA)戦略の有効性を, 漸進的な自己学習手法に焦点をあてて評価する。
論文 参考訳(メタデータ) (2023-11-16T08:28:00Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - Improving the Reusability of Pre-trained Language Models in Real-world
Applications [9.534831387705312]
Mask-tuning は Masked Language Modeling (MLM) トレーニング目標を微調整プロセスに統合し,PLM の一般化を促進する。
実験により、マスクチューニングは現在の最先端技術を上回ることが示された。
この結果から,マスクチューニングにより,見えないデータ上でのPLMの再利用性が向上し,現実のアプリケーションにおいてより実用的で効果的であることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T21:00:16Z) - Pruning Pre-trained Language Models with Principled Importance and
Self-regularization [18.088550230146247]
反復プルーニングは、事前訓練された言語モデルにおいて最も効果的な圧縮手法の1つである。
モデル予測を最新のチェックポイントで正規化する自己正規化手法を提案する。
自然言語理解,質問応答,名前付きエンティティ認識,および様々なトランスフォーマーベースのPLMを用いたデータ・テキスト生成に関する実験により,様々な空間レベルにおけるアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-05-21T08:15:12Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Posterior Differential Regularization with f-divergence for Improving
Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。
後微分正則化を$f$-divergencesの族に一般化する。
実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。