論文の概要: A Simple yet Effective Self-Debiasing Framework for Transformer Models
- arxiv url: http://arxiv.org/abs/2306.01907v1
- Date: Fri, 2 Jun 2023 20:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 23:09:55.595799
- Title: A Simple yet Effective Self-Debiasing Framework for Transformer Models
- Title(参考訳): 変圧器モデルのための単純かつ効果的な自己バイアスフレームワーク
- Authors: Xiaoyue Wang, Lijie Wang, Xin Liu, Suhang Wu, Jinsong Su, Hua Wu
- Abstract要約: 現在のTransformerベースの自然言語理解(NLU)モデルは、データセットバイアスに大きく依存している。
本稿では,トランスフォーマーベースNLUモデルのための簡易かつ効果的な自己退化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.09053367249642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Transformer-based natural language understanding (NLU) models heavily
rely on dataset biases, while failing to handle real-world out-of-distribution
(OOD) instances. Many methods have been proposed to deal with this issue, but
they ignore the fact that the features learned in different layers of
Transformer-based NLU models are different. In this paper, we first conduct
preliminary studies to obtain two conclusions: 1) both low- and high-layer
sentence representations encode common biased features during training; 2) the
low-layer sentence representations encode fewer unbiased features than the
highlayer ones. Based on these conclusions, we propose a simple yet effective
self-debiasing framework for Transformer-based NLU models. Concretely, we first
stack a classifier on a selected low layer. Then, we introduce a residual
connection that feeds the low-layer sentence representation to the top-layer
classifier. In this way, the top-layer sentence representation will be trained
to ignore the common biased features encoded by the low-layer sentence
representation and focus on task-relevant unbiased features. During inference,
we remove the residual connection and directly use the top-layer sentence
representation to make predictions. Extensive experiments and indepth analyses
on NLU tasks show that our framework performs better than several competitive
baselines, achieving a new SOTA on all OOD test sets.
- Abstract(参考訳): 現在のTransformerベースの自然言語理解(NLU)モデルは、実際のアウトオブディストリビューション(OOD)インスタンスの処理に失敗しながら、データセットバイアスに大きく依存している。
この問題に対処する多くの手法が提案されているが、TransformerベースのNLUモデルの異なる層で学んだ機能は異なるという事実を無視している。
本稿では,まず2つの結論を得るための予備研究を行う。
1) 訓練中の共通バイアス特徴を符号化する低層文及び高層文表現
2)低層文表現は高層文よりも偏りのない特徴を符号化する。
これらの結論に基づき、トランスフォーマーベースNLUモデルのための簡易かつ効果的な自己退化フレームワークを提案する。
具体的には,まず選択した低層に分類器を積み重ねる。
次に,低層文表現を上位層分類器に供給する残差接続を導入する。
このようにして、上位層文表現は、低層文表現で符号化される共通のバイアス特徴を無視し、タスクに関連する非バイアス特徴に焦点を当てるように訓練される。
推測中、残差接続を除去し、最上層文表現を直接使用して予測を行う。
NLUタスクに関する大規模な実験と詳細な分析により、我々のフレームワークは、いくつかの競合するベースラインよりも優れた性能を示し、すべてのOODテストセット上で新しいSOTAを達成する。
関連論文リスト
- Prompt Tuning Pushes Farther, Contrastive Learning Pulls Closer: A
Two-Stage Approach to Mitigate Social Biases [13.837927115198308]
本稿では,コントラスト学習と連続的プロンプト拡張を用いた逆トレーニングによる2段階脱バイアスモデルを提案する。
我々のアプローチは、トレーニングプロセスに困難を加えることで、より強固なデバイアス性能を達成するためのモデルを導出します。
論文 参考訳(メタデータ) (2023-07-04T09:35:03Z) - Bi-Drop: Enhancing Fine-tuning Generalization via Synchronous sub-net
Estimation and Optimization [58.90989478049686]
Bi-Dropは、様々なサブネットからの勾配を使ってモデルパラメータを選択的に更新する微調整戦略である。
GLUEベンチマークの実験は、Bi-Dropが従来の微調整方法よりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2023-05-24T06:09:26Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Conceptor-Aided Debiasing of Large Language Models [1.0435741631709405]
事前訓練された大規模言語モデル(LLM)は、トレーニングコーパスの社会的バイアスを反映している。
我々は,BERT や GPT などの LLM のバイアス部分空間を同定し,除去するためのソフトプロジェクション手法である概念を用いた。
提案手法は,(1)NOT操作による後処理によるバイアス部分空間の投影,(2)新しいアーキテクチャ,CI-BERT (Conceptor-intervened BERT) を提案する。
論文 参考訳(メタデータ) (2022-11-20T21:24:48Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - FairFil: Contrastive Neural Debiasing Method for Pretrained Text
Encoders [68.8687509471322]
本稿では,プリトレーニングされたエンコーダ出力をフェアフィルタネットワークを介してデバイアス表現に変換する,プリトレーニング文エンコーダの最初のニューラルデバイアス手法を提案する。
実世界のデータセットでは、fairfilは学習済みテキストエンコーダのバイアスを効果的に低減し、下流タスクで望ましいパフォーマンスを継続的に示します。
論文 参考訳(メタデータ) (2021-03-11T02:01:14Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - Unsupervised Extractive Summarization by Pre-training Hierarchical
Transformers [107.12125265675483]
教師なし抽出文書要約は、訓練中にラベル付き要約を用いることなく、文書から重要な文章を選択することを目的としている。
既存の手法は主にグラフベースで、文をノードとして、エッジの重みは文の類似性によって測定される。
教師なし抽出要約のための文のランク付けにはトランスフォーマーの注意が利用できることがわかった。
論文 参考訳(メタデータ) (2020-10-16T08:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。