論文の概要: Mind Your Inflections! Improving NLP for Non-Standard Englishes with
Base-Inflection Encoding
- arxiv url: http://arxiv.org/abs/2004.14870v4
- Date: Wed, 18 Nov 2020 06:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 02:47:51.959774
- Title: Mind Your Inflections! Improving NLP for Non-Standard Englishes with
Base-Inflection Encoding
- Title(参考訳): 反射に気をつけろ!
ベースインフレクション符号化による非標準英語のNLPの改善
- Authors: Samson Tan, Shafiq Joty, Lav R. Varshney, Min-Yen Kan
- Abstract要約: インフレクションの変化は、コロキアル・シンガポール英語やアフリカ・アメリカン・バーナキュラー英語のような世界英語の一般的な特徴である。
本研究では,英語の文章をベースに還元してトークン化するためのベース・インフレクション形式 (BITE) を提案する。
符号化により、一般的なデータ駆動型サブワードトークン化器の語彙効率が向上することを示す。
- 参考スコア(独自算出の注目度): 44.356771106881006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inflectional variation is a common feature of World Englishes such as
Colloquial Singapore English and African American Vernacular English. Although
comprehension by human readers is usually unimpaired by non-standard
inflections, current NLP systems are not yet robust. We propose Base-Inflection
Encoding (BITE), a method to tokenize English text by reducing inflected words
to their base forms before reinjecting the grammatical information as special
symbols. Fine-tuning pretrained NLP models for downstream tasks using our
encoding defends against inflectional adversaries while maintaining performance
on clean data. Models using BITE generalize better to dialects with
non-standard inflections without explicit training and translation models
converge faster when trained with BITE. Finally, we show that our encoding
improves the vocabulary efficiency of popular data-driven subword tokenizers.
Since there has been no prior work on quantitatively evaluating vocabulary
efficiency, we propose metrics to do so.
- Abstract(参考訳): インフレクションの変化は、コロキアル・シンガポール英語やアフリカ・アメリカン・バーナキュラー英語のような世界英語の一般的な特徴である。
人間の読者による理解は、通常、非標準反射によって損なわれないが、現在のNLPシステムはまだ堅牢ではない。
そこで本研究では, 文法情報を特殊記号として取り戻す前に, 屈折語を基本形に縮小し, 英語テキストをトークン化する手法であるbiteを提案する。
我々のエンコーディングを用いた下流タスクのための微調整済みnlpモデルは、クリーンデータのパフォーマンスを維持しながら、逆行に対して防御する。
BITEを用いたモデルは、明示的なトレーニングや翻訳モデルなしで非標準の屈折を持つ方言よりも一般化され、BITEで訓練するとより早く収束する。
最後に,我々のエンコーディングが,一般的なデータ駆動サブワードトークン化器の語彙効率を向上させることを示す。
語彙効率を定量的に評価する先行研究は行われていないので,その指標を提案する。
関連論文リスト
- Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Dialect-robust Evaluation of Generated Text [40.85375247260744]
NLG評価指標の目標として,方言の頑健性と方言認識を定式化する。
このスイートを現在の最先端のメトリクスに適用すると、それらが方言ロバストではないことが示される。
論文 参考訳(メタデータ) (2022-11-02T07:12:23Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Order-sensitive Shapley Values for Evaluating Conceptual Soundness of
NLP Models [13.787554178089444]
順序感受性シェープ値(英: Order-sensitive Shapley Values、OSV)は、シーケンシャルデータの説明法である。
我々は,OSVが勾配に基づく手法よりもモデル行動の説明に忠実であることを示す。
また,OSVを利用して敵の例を生成できることも示す。
論文 参考訳(メタデータ) (2022-06-01T02:30:12Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations [68.16751625956243]
完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。
我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
論文 参考訳(メタデータ) (2020-05-09T04:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。