論文の概要: Invariant Language Modeling
- arxiv url: http://arxiv.org/abs/2110.08413v1
- Date: Sat, 16 Oct 2021 00:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 21:02:45.329596
- Title: Invariant Language Modeling
- Title(参考訳): 不変言語モデリング
- Authors: Maxime Peyrard, Sarvjeet Singh Ghotra, Martin Josifoski, Vidhan
Agarwal, Barun Patra, Dean Carignan, Emre Kiciman, Robert West
- Abstract要約: 複数の環境にまたがってより一般化された不変表現を学習するためのフレームワークを提案する。
特に、IRM(IRM-games)のゲーム理論の実装を言語モデルに適用する。
提案手法は, (i) 構造ノイズを除去し, (ii) グローバルな性能に影響を与えることなく, 特定の刺激的相関を無視し, (iii) 領域外一般化を向上する能力を示す。
- 参考スコア(独自算出の注目度): 23.096265183487034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern pretrained language models are critical components of NLP pipelines.
Yet, they suffer from spurious correlations, poor out-of-domain generalization,
and biases. Inspired by recent progress in causal machine learning, in
particular the invariant risk minimization (IRM) paradigm, we propose invariant
language modeling, a framework for learning invariant representations that
generalize better across multiple environments. In particular, we adapt a
game-theoretic implementation of IRM (IRM-games) to language models, where the
invariance emerges from a specific training schedule in which all the
environments compete to optimize their own environment-specific loss by
updating subsets of the model in a round-robin fashion. In a series of
controlled experiments, we demonstrate the ability of our method to (i) remove
structured noise, (ii) ignore specific spurious correlations without affecting
global performance, and (iii) achieve better out-of-domain generalization.
These benefits come with a negligible computational overhead compared to
standard training, do not require changing the local loss, and can be applied
to any language model architecture. We believe this framework is promising to
help mitigate spurious correlations and biases in language models.
- Abstract(参考訳): 現代の事前訓練言語モデルは、NLPパイプラインの重要なコンポーネントである。
しかし、それらは散発的な相関関係、ドメイン外一般化の貧弱さ、バイアスに苦しむ。
因果機械学習の最近の進歩,特に不変リスク最小化(IRM)パラダイムに着想を得て,複数の環境においてより一般化された不変表現の学習フレームワークである不変言語モデリングを提案する。
特に、IRM(IRM-games)のゲーム理論的な実装を言語モデルに適用し、各環境がラウンドロビン方式でモデルのサブセットを更新することで、環境固有の損失を最適化するために競合する特定のトレーニングスケジュールから不変性を生じる。
一連の制御された実験において、我々は方法の能力を示す。
(i)構造化ノイズを除去。
(二)グローバルパフォーマンスに影響を与えることなく、特定の刺激的相関を無視し、
(iii)ドメイン外一般化の改善。
これらの利点は、標準的なトレーニングに比べて計算オーバーヘッドが無視でき、局所的な損失を変更する必要はなく、どんな言語モデルアーキテクチャにも適用できる。
私たちはこのフレームワークが言語モデルにおける急激な相関とバイアスを軽減するのに役立つと信じています。
関連論文リスト
- Mitigating Catastrophic Forgetting in Language Transfer via Model Merging [16.845734486667226]
ブランチ・アンド・マージ(BaM)は複数のモデルを反復的にマージする手法である。
BaMは、これが低等級であるがより高い品質の重量変化をもたらすという知見に基づいている。
ブルガリア語とドイツ語の実証研究において、BaMは、マッチングやターゲットドメインの性能の向上を伴いながら、忘れを著しく低減できることを示した。
論文 参考訳(メタデータ) (2024-07-11T17:32:40Z) - Effective internal language model training and fusion for factorized transducer model [26.371223360905557]
ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。
因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:01:05Z) - A Simple Recipe for Language-guided Domain Generalized Segmentation [45.93202559299953]
トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の課題のひとつだ。
本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。
筆者らのレシピは, (i) 極小調整による内在的CLIPロバスト性の保存, (ii) 言語駆動型ローカルスタイル拡張, (iii) 訓練中のソースと拡張スタイルを局所的に混合したランダム化という3つの重要な要素から構成される。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Learning Optimal Features via Partial Invariance [18.552839725370383]
不変リスク最小化(IRM)は、複数の環境から堅牢なモデルを学ぶことを目的とした一般的なフレームワークである。
IRMが予測器を過度に抑制できることを示し、これを補うために、$textitpartial invariance$を介して緩和を提案する。
線形設定と、言語と画像データの両方のタスクにおけるディープニューラルネットワークの両方で実施されたいくつかの実験により、結論の検証が可能になった。
論文 参考訳(メタデータ) (2023-01-28T02:48:14Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。