論文の概要: DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models
- arxiv url: http://arxiv.org/abs/2502.18353v1
- Date: Tue, 25 Feb 2025 16:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:05.399808
- Title: DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models
- Title(参考訳): DBR: 自然言語理解モデルの曖昧化のためのダイバージェンスに基づく正規化
- Authors: Zihao Li, Ruixiang Tang, Lu Cheng, Shuaiqiang Wang, Dawei Yin, Mengnan Du,
- Abstract要約: プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
- 参考スコア(独自算出の注目度): 50.54264918467997
- License:
- Abstract: Pre-trained language models (PLMs) have achieved impressive results on various natural language processing tasks. However, recent research has revealed that these models often rely on superficial features and shortcuts instead of developing a genuine understanding of language, especially for natural language understanding (NLU) tasks. Consequently, the models struggle to generalize to out-of-domain data. In this work, we propose Divergence Based Regularization (DBR) to mitigate this shortcut learning behavior. Our method measures the divergence between the output distributions for original examples and examples where shortcut tokens have been masked. This process prevents the model's predictions from being overly influenced by shortcut features or biases. We evaluate our model on three NLU tasks and find that it improves out-of-domain performance with little loss of in-domain accuracy. Our results demonstrate that reducing the reliance on shortcuts and superficial features can enhance the generalization ability of large pre-trained language models.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
しかし、最近の研究では、これらのモデルは、特に自然言語理解(NLU)タスクにおいて、言語を真に理解する代わりに、表面的な特徴やショートカットに頼っていることがしばしば明らかになっている。
その結果、モデルはドメイン外のデータに一般化するのに苦労する。
本研究では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
本手法は,原例とショートカットトークンが隠蔽された例の出力分布のばらつきを計測する。
このプロセスは、モデルの予測がショートカットの特徴やバイアスに過度に影響されないようにする。
3つのNLUタスクでモデルを評価した結果、ドメイン内精度を損なうことなく、ドメイン外性能を向上させることが判明した。
その結果、ショートカットや表面的特徴への依存を減らすことで、大規模な事前学習言語モデルの一般化能力を高めることが示されている。
関連論文リスト
- Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。
我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。
本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文 参考訳(メタデータ) (2024-09-11T17:09:49Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - What Matters In The Structured Pruning of Generative Language Models? [44.86217321428518]
GPT-3のような自動回帰型大規模言語モデルは膨大な計算資源を必要とする。
伝統的に、資源使用量を減らすために構造化プルーニング法が用いられている。
我々は,緑化モデルにおけるニューロンの特異性を改善するため,GUM(Globally Unique Movement)を導入する。
論文 参考訳(メタデータ) (2023-02-07T22:05:55Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Invariant Language Modeling [23.096265183487034]
複数の環境にまたがってより一般化された不変表現を学習するためのフレームワークを提案する。
特に、IRM(IRM-games)のゲーム理論の実装を言語モデルに適用する。
提案手法は, (i) 構造ノイズを除去し, (ii) グローバルな性能に影響を与えることなく, 特定の刺激的相関を無視し, (iii) 領域外一般化を向上する能力を示す。
論文 参考訳(メタデータ) (2021-10-16T00:03:19Z) - Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU
models [53.36605766266518]
訓練されたNLUモデルは、長尾分布の先頭に位置する特徴を強く好んでいることを示す。
本研究では,ショートカット度の高いサンプルに対する過信予測を抑えるためのショートカット緩和フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-11T19:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。