論文の概要: Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization
- arxiv url: http://arxiv.org/abs/2503.16550v1
- Date: Wed, 19 Mar 2025 13:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:25.615021
- Title: Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization
- Title(参考訳): 2段階最適化による言語モデルの一般化とロバスト性の統一化
- Authors: Yudao Sun, Juan Yin, Juan Zhao, Fan Zhang, Yongheng Liu, Hongji Chen,
- Abstract要約: 本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 2.502393972789905
- License:
- Abstract: Neural network language models (LMs) are confronted with significant challenges in generalization and robustness. Currently, many studies focus on improving either generalization or robustness in isolation, without methods addressing both aspects simultaneously, which presents a significant challenge in developing LMs that are both robust and generalized. In this paper, we propose a bi-stage optimization framework to uniformly enhance both the generalization and robustness of LMs, termed UEGR. Specifically, during the forward propagation stage, we enrich the output probability distributions of adversarial samples by adaptive dropout to generate diverse sub models, and incorporate JS divergence and adversarial losses of these output distributions to reinforce output stability. During backward propagation stage, we compute parameter saliency scores and selectively update only the most critical parameters to minimize unnecessary deviations and consolidate the model's resilience. Theoretical analysis shows that our framework includes gradient regularization to limit the model's sensitivity to input perturbations and selective parameter updates to flatten the loss landscape, thus improving both generalization and robustness. The experimental results show that our method significantly improves the generalization and robustness of LMs compared to other existing methods across 13 publicly available language datasets, achieving state-of-the-art (SOTA) performance.
- Abstract(参考訳): ニューラルネットワーク言語モデル(LM)は、一般化と堅牢性において大きな課題に直面している。
現在、多くの研究は、両方の側面に同時に対処する手法を使わずに、分離における一般化または堅牢性の改善に重点を置いている。
本稿では, UEGR と呼ばれる LM の一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
具体的には, 前向き伝播段階において, 適応ドロップアウトにより, 対向サンプルの出力確率分布を増大させ, 多様なサブモデルを生成するとともに, これらの出力分布のJSばらつきと対向損失を取り入れて出力安定性を向上する。
後方伝播の段階ではパラメータ・サリエンシのスコアを計算し、最も重要なパラメータのみを選択的に更新し、不必要な偏差を最小限に抑え、モデルのレジリエンスを増強する。
理論的解析により,本フレームワークは,入力摂動に対するモデルの感度を制限するための勾配正則化と,損失景観を平坦化するための選択パラメータ更新を含んでおり,一般化とロバスト性の両方を改善していることがわかった。
実験の結果,提案手法は,13の公開言語データセットにまたがる既存の手法と比較して,LMの一般化とロバスト性を大幅に向上し,最先端(SOTA)性能を実現していることがわかった。
関連論文リスト
- Understanding Generalization of Federated Learning: the Trade-off between Model Stability and Optimization [22.577751005038543]
Federated Learning(FL)は、複数のデバイスで機械学習モデルをトレーニングする分散学習アプローチである。
FLはデータの不均一性のためにしばしば課題に直面し、クライアント間の一貫性のないローカルオプティマに繋がる。
本稿ではアルゴリズムに依存した過剰リスク最小化のための革新的な一般化ダイナミクス解析フレームワークLibraを紹介する。
論文 参考訳(メタデータ) (2024-11-25T11:43:22Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - The Price of Implicit Bias in Adversarially Robust Generalization [25.944485657150146]
頑健な経験的リスク最小化(robust ERM)における最適化の暗黙バイアスについて検討する。
本研究では,ロバストEMMにおける最適化の暗黙バイアスがモデルのロバスト性に大きな影響を与えることを示す。
論文 参考訳(メタデータ) (2024-06-07T14:44:37Z) - Out-of-distribution robustness for multivariate analysis via causal regularisation [4.487663958743944]
本稿では,分散シフトに対するロバスト性を確保するために,因果性に根ざした正規化戦略を提案する。
アンカー回帰フレームワークに基づいて、古典アルゴリズムの損失関数に単純な正規化項を組み込む方法を示す。
本フレームワークでは,損失関数と正規化戦略との整合性を効率よく検証することができる。
論文 参考訳(メタデータ) (2024-03-04T09:21:10Z) - Cross-modality debiasing: using language to mitigate sub-population shifts in imaging [28.88097536026781]
サブポピュレーションシフトは、アルゴリズムバイアスの重要な源であり、分散ロバスト性を要求する。
近年の研究では、視覚言語モデルCLIPのような多モード基礎モデルに固有の分布ロバスト性が確認されている。
本稿では,画像特徴表現の劣化を抑えるために自然言語入力を活用することを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:54:48Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Posterior Differential Regularization with f-divergence for Improving
Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。
後微分正則化を$f$-divergencesの族に一般化する。
実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:58:01Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。