論文の概要: Detecting and Exorcising Statistical Demons from Language Models with
Anti-Models of Negative Data
- arxiv url: http://arxiv.org/abs/2010.11855v1
- Date: Thu, 22 Oct 2020 16:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 04:45:19.920626
- Title: Detecting and Exorcising Statistical Demons from Language Models with
Anti-Models of Negative Data
- Title(参考訳): 負データアンチモデルを用いた言語モデルからの統計的デモンの検出と抽出
- Authors: Michael L. Wick, Kate Silverstein, Jean-Baptiste Tristan, Adam Pocock,
Mark Johnson
- Abstract要約: モデルファミリー内では、パラメータの数、訓練エポック数、データセットのサイズが増加するため、モデルが負のn-gramデータに一般化する能力がある。
本稿では,このような望ましくない信号を正のデータから自動的に学習した負のデータ分布で減衰させる帰納バイアスの形式を提案する。
- 参考スコア(独自算出の注目度): 13.392212395386933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It's been said that "Language Models are Unsupervised Multitask Learners."
Indeed, self-supervised language models trained on "positive" examples of
English text generalize in desirable ways to many natural language tasks. But
if such models can stray so far from an initial self-supervision objective, a
wayward model might generalize in undesirable ways too, say to nonsensical
"negative" examples of unnatural language. A key question in this work is: do
language models trained on (positive) training data also generalize to
(negative) test data? We use this question as a contrivance to assess the
extent to which language models learn undesirable properties of text, such as
n-grams, that might interfere with the learning of more desirable properties of
text, such as syntax. We find that within a model family, as the number of
parameters, training epochs, and data set size increase, so does a model's
ability to generalize to negative n-gram data, indicating standard
self-supervision generalizes too far. We propose a form of inductive bias that
attenuates such undesirable signals with negative data distributions
automatically learned from positive data. We apply the method to remove n-gram
signals from LSTMs and find that doing so causes them to favor syntactic
signals, as demonstrated by large error reductions (up to 46% on the hardest
cases) on a syntactic subject-verb agreement task.
- Abstract(参考訳): 言語モデルは教師なしマルチタスク学習者である」と言われている。
実際、英語テキストの「肯定的な」例で訓練された自己教師付き言語モデルは、多くの自然言語タスクに望ましい方法で一般化する。
しかし、もしそのようなモデルが最初の自己スーパービジョンの目的から遠く離れているなら、ウェイワードモデルは望ましくない方法で一般化するかもしれない。
(肯定的な)トレーニングデータに基づいてトレーニングされた言語モデルは、(否定的な)テストデータにも一般化するのか?
この質問は、言語モデルがn-gramsのようなテキストの望ましくない性質を学習する程度を評価するために、構文などのより望ましい性質の学習を阻害する可能性がある。
モデルファミリ内では、パラメータの数、訓練エポック数、データセットのサイズが増加するため、モデルが負のn-gramデータに一般化する能力があり、標準の自己スーパービジョンが一般化しすぎていることが分かる。
本稿では,このような望ましくない信号を正のデータから自動的に学習した負のデータ分布で減衰させる帰納バイアスの形式を提案する。
LSTMからn-gram信号を取り除く手法を適用し,その処理により,構文的主観的合意タスクにおいて,大規模な誤り低減(最も難しい場合の最大46%)で示されるように,構文的信号に有利な結果が得られた。
関連論文リスト
- Relation-based Counterfactual Data Augmentation and Contrastive Learning for Robustifying Natural Language Inference Models [0.0]
本稿では,トークンベースおよび文ベースの拡張手法を用いて,対実文ペアを生成する手法を提案する。
提案手法は,NLIモデルの性能とロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-28T03:43:25Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - How Does Data Corruption Affect Natural Language Understanding Models? A
Study on GLUE datasets [4.645287693363387]
モデルが微調整されたり、破損したデータでテストされた場合、ほとんどのGLUEタスクのパフォーマンスは高いままである。
提案したデータ変換は,特定のデータセットがモデルの言語理解能力を評価するための適切なテストベッドを構成する範囲を評価するための診断ツールとして利用することができる。
論文 参考訳(メタデータ) (2022-01-12T13:35:53Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based
Bias in NLP [10.936043362876651]
問題のあるテキストを生成するモデルの確率を減少させる復号アルゴリズムを提案する。
このアプローチは必ずしもバイアス付きテキストを生成する言語モデルの問題を取り除くものではないが、この方向への重要なステップであると考えている。
論文 参考訳(メタデータ) (2021-02-28T11:07:37Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。