論文の概要: Focusing More on Conflicts with Mis-Predictions Helps Language
Pre-Training
- arxiv url: http://arxiv.org/abs/2012.08789v1
- Date: Wed, 16 Dec 2020 08:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 03:01:26.573909
- Title: Focusing More on Conflicts with Mis-Predictions Helps Language
Pre-Training
- Title(参考訳): Mis-Predictionsとの衝突に注目した言語事前学習を支援する
- Authors: Chen Xing, Wencong Xiao, Yong Li, Wei Lin
- Abstract要約: 事前学習中に誤予測を行うことで,言語事前学習法の有効性を改善することを提案する。
ミス予測(McMisP)の文脈に着目したFocusing Lessの導入
McMisP はそのような情報を使用して、誤予測が発生した場合に注意モジュールを導きます。
- 参考スコア(独自算出の注目度): 17.427163453290888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose to improve the effectiveness of language
pre-training methods with the help of mis-predictions during pre-training.
Neglecting words in the input sentence that have conflicting semantics with
mis-predictions is likely to be the reason of generating mis-predictions at
pre-training. Therefore, we hypothesis that mis-predictions during pre-training
can act as detectors of the ill focuses of the model. If we train the model to
focus more on the conflicts with the mis-predictions while focus less on the
rest words in the input sentence, the mis-predictions can be more easily
corrected and the entire model could be better trained. Towards this end, we
introduce Focusing Less on Context of Mis-predictions(McMisP). In McMisP, we
record the co-occurrence information between words to detect the conflicting
words with mis-predictions in an unsupervised way. Then McMisP uses such
information to guide the attention modules when a mis-prediction occurs.
Specifically, several attention modules in the Transformer are optimized to
focus more on words in the input sentence that have co-occurred rarely with the
mis-predictions and vice versa. Results show that McMisP significantly
expedites BERT and ELECTRA and improves their performances on downstream tasks.
- Abstract(参考訳): 本研究では,事前学習における誤り予測の助けを借りて,言語事前学習手法の有効性を向上させることを提案する。
誤った予測と相反する意味論を持つ入力文中の単語を無視することは、事前学習時に誤予測を引き起こす原因になりがちである。
したがって、事前学習中の誤予測はモデルの悪焦点の検出器として機能すると仮定する。
入力文中の他の単語に重点を置きながら、誤った予測との衝突にもっと焦点を合わせるようにモデルをトレーニングすれば、誤った予測をより容易に修正でき、モデル全体をより良く訓練することができます。
この目的に向けて、ミス予測(McMisP)の文脈に焦点を合わせることを提案する。
McMisPでは、単語間の共起情報を記録し、矛盾する単語と誤予測を教師なしで検出する。
すると、McMisPはそのような情報を使って注意モジュールを誘導する。
特に、トランスフォーマーのいくつかの注意モジュールは、誤った予測とほとんど共起していない入力文の単語に焦点を合わせるように最適化されている。
結果から,McMisPはBERTとELECTRAを著しく高速化し,下流タスクにおける性能向上を図っている。
関連論文リスト
- Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Cross-Prediction-Powered Inference [15.745692520785074]
クロスプレディクション(Cross-prediction)は、機械学習を利用した推論の検証方法である。
予測による推論の適応よりもクロス予測の方が一貫して強力であることを示す。
論文 参考訳(メタデータ) (2023-09-28T17:01:58Z) - Incentivizing honest performative predictions with proper scoring rules [4.932130498861987]
その予測が下された後に専門家の信念を正確に反映していれば、予測は固定点であると言える。
二項予測に対して、専門家の予測が結果に与える影響が限定されている場合、最適なレポートが任意に固定点に近づくスコアリングルールを定義することができる。
論文 参考訳(メタデータ) (2023-05-28T00:53:26Z) - A Generative Approach for Script Event Prediction via Contrastive
Fine-tuning [35.87615178251874]
Scriptイベント予測は、コンテキストが与えられた後続のイベントを予測することを目的としている。
近年の研究では,事前学習言語モデルと外部知識の導入により,事象相関推論の改善が試みられている。
本稿では,事前学習した言語モデルをイベント中心の事前学習目的で微調整する,新しい生成手法を提案する。
論文 参考訳(メタデータ) (2022-12-07T07:32:47Z) - Calibrate Before Use: Improving Few-Shot Performance of Language Models [68.17016463756474]
GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
この種の少数ショット学習は不安定である。
プロンプト形式、トレーニング例、およびトレーニング例の順序の選択は、精度をほぼチャンスから最先端のものに変化させる可能性があります。
論文 参考訳(メタデータ) (2021-02-19T00:23:59Z) - Concealed Data Poisoning Attacks on NLP Models [56.794857982509455]
逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
論文 参考訳(メタデータ) (2020-10-23T17:47:06Z) - How to "Improve" Prediction Using Behavior Modification [0.0]
データサイエンス研究者は予測を改善するアルゴリズム、モデル、アプローチを設計する。
より大きく、よりリッチなデータによって予測精度が向上する。
プラットフォームは、予測値に向かってユーザの振る舞いをプッシュすることで、より正確な予測精度を秘かに達成することができる。
我々の導出は、データ科学者、プラットフォーム、顧客、そして行動が操作される人間に対して、そのような行動修正がもたらす影響を解明する。
論文 参考訳(メタデータ) (2020-08-26T12:39:35Z) - A Bootstrapped Model to Detect Abuse and Intent in White Supremacist
Corpora [0.0]
インテントの予測モデルを構築し、インテントのシードセットからブートストラップし、インテントを表現する言語テンプレートを作成します。
暴力行為の欲求を示すポストを検出するために、意図の予測と虐待言語の予測を融合する。
論文 参考訳(メタデータ) (2020-08-10T17:17:21Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。