論文の概要: It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations
- arxiv url: http://arxiv.org/abs/2005.04364v1
- Date: Sat, 9 May 2020 04:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 06:35:46.381478
- Title: It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations
- Title(参考訳): モーフィンの時間だ!
屈折摂動による言語弁別
- Authors: Samson Tan, Shafiq Joty, Min-Yen Kan, Richard Socher
- Abstract要約: 完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。
我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
- 参考スコア(独自算出の注目度): 68.16751625956243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training on only perfect Standard English corpora predisposes pre-trained
neural networks to discriminate against minorities from non-standard linguistic
backgrounds (e.g., African American Vernacular English, Colloquial Singapore
English, etc.). We perturb the inflectional morphology of words to craft
plausible and semantically similar adversarial examples that expose these
biases in popular NLP models, e.g., BERT and Transformer, and show that
adversarially fine-tuning them for a single epoch significantly improves
robustness without sacrificing performance on clean data.
- Abstract(参考訳): 完全な標準英語コーパスのみのトレーニングでは、訓練済みのニューラルネットワークが非標準言語的背景(例えば、アフリカ系アメリカ人のVernacular English, Colloquial Singapore Englishなど)からマイノリティを区別するために準備されている。
これらのバイアスを一般的なNLPモデル(例えばBERTやTransformer)で表すような、可塑性で意味論的に類似した逆の例を作るために、単語の屈折形態を摂動させ、一方のエポックに対して逆向きに微調整することで、クリーンなデータの性能を犠牲にすることなく、ロバスト性を大幅に向上させることを示す。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。
我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文 参考訳(メタデータ) (2024-03-16T02:27:19Z) - Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties [0.0]
私たちは、その根本にあるバイアス(データそのもの)の問題に対処することを目指しています。
英語の多言語話者の割合が低い国からのツイートのデータセットをキュレートする。
ベストプラクティスに従って、我々の成長するコーパスには7カ国から170,800のツイートが写っている。
論文 参考訳(メタデータ) (2024-01-21T13:18:20Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Disambiguation of morpho-syntactic features of African American English
-- the case of habitual be [1.4699455652461728]
習慣的「be」は同型であり、したがってあいまいであり、他の形の「be」はAAEや他の英語の変種にも見られる。
我々はルールベースのフィルタとデータ拡張の組み合わせを用いて、習慣インスタンスと非生活インスタンスのバランスの取れたコーパスを生成する。
論文 参考訳(メタデータ) (2022-04-26T16:30:22Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Adversarial Training with Contrastive Learning in NLP [0.0]
本稿では,言語処理タスクを逆学習するために,比較学習(ATCL)を用いた逆学習を提案する。
中心となる考え方は、高速勾配法(FGM)によって入力の埋め込み空間に線形摂動を生じさせ、元の表現と摂動表現を対照的な学習によって密に保つようモデルを訓練することである。
この結果から, 定量的(複雑度, BLEU) のスコアは, ベースラインに比べて向上しただけでなく, 両タスクのセマンティックレベルにおいても, 質的な結果が得られた。
論文 参考訳(メタデータ) (2021-09-19T07:23:45Z) - Discriminatively-Tuned Generative Classifiers for Robust Natural
Language Inference [59.62779187457773]
自然言語推論のための生成型分類器(NLI)を提案する。
差別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較する。
実験の結果、GenNLIはいくつかの挑戦的なNLI実験環境において差別的ベースラインと事前訓練ベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2020-10-08T04:44:00Z) - Mind Your Inflections! Improving NLP for Non-Standard Englishes with
Base-Inflection Encoding [44.356771106881006]
インフレクションの変化は、コロキアル・シンガポール英語やアフリカ・アメリカン・バーナキュラー英語のような世界英語の一般的な特徴である。
本研究では,英語の文章をベースに還元してトークン化するためのベース・インフレクション形式 (BITE) を提案する。
符号化により、一般的なデータ駆動型サブワードトークン化器の語彙効率が向上することを示す。
論文 参考訳(メタデータ) (2020-04-30T15:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。