論文の概要: Controlled Randomness Improves the Performance of Transformer Models
- arxiv url: http://arxiv.org/abs/2310.13526v1
- Date: Fri, 20 Oct 2023 14:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:32:43.620961
- Title: Controlled Randomness Improves the Performance of Transformer Models
- Title(参考訳): ランダム性制御による変圧器モデルの性能向上
- Authors: Tobias Deu{\ss}er, Cong Zhao, Wolfgang Kr\"amer, David Leonhard,
Christian Bauckhage, Rafet Sifa
- Abstract要約: 制御されたランダム性、すなわちノイズを訓練プロセスに導入し、微調整言語モデルを改善する。
このようなノイズを加えることで、結合したエンティティ認識と関係抽出とテキスト要約という2つの下流タスクのパフォーマンスが向上することがわかった。
- 参考スコア(独自算出の注目度): 4.678970068275123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During the pre-training step of natural language models, the main objective
is to learn a general representation of the pre-training dataset, usually
requiring large amounts of textual data to capture the complexity and diversity
of natural language. Contrasting this, in most cases, the size of the data
available to solve the specific downstream task is often dwarfed by the
aforementioned pre-training dataset, especially in domains where data is
scarce. We introduce controlled randomness, i.e. noise, into the training
process to improve fine-tuning language models and explore the performance of
targeted noise in addition to the parameters of these models. We find that
adding such noise can improve the performance in our two downstream tasks of
joint named entity recognition and relation extraction and text summarization.
- Abstract(参考訳): 自然言語モデルの事前学習段階において、主な目的は事前学習データセットの一般的な表現を学習することであり、通常、自然言語の複雑さと多様性を捉えるために大量のテキストデータを必要とする。
これとは対照的に、多くの場合、特定のダウンストリームタスクを解決するために利用可能なデータのサイズは、前述の事前トレーニングデータセットによって劣っている。
制御されたランダム性、すなわちノイズを訓練プロセスに導入し、微調整言語モデルを改善し、これらのモデルのパラメータに加えてターゲット雑音の性能を探索する。
このようなノイズを加えることで,エンティティ認識と関係抽出,テキスト要約という2つの下流タスクのパフォーマンス向上が期待できる。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Improving Commonsense Causal Reasoning by Adversarial Training and Data
Augmentation [14.92157586545743]
本稿では,因果推論の領域において,モデルをより堅牢にするための多くの手法を提案する。
少数の追加生成データポイントがなくても、パフォーマンスと両方のデータセットの統計的に有意な改善を示します。
論文 参考訳(メタデータ) (2021-01-13T09:55:29Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Unnatural Language Processing: Bridging the Gap Between Synthetic and
Natural Language Data [37.542036032277466]
本稿では,言語理解問題における-simulation-to-real'転送手法を提案する。
我々のアプローチは、いくつかのドメインで自然言語データに基づいて訓練された最先端のモデルと一致または性能を向上する。
論文 参考訳(メタデータ) (2020-04-28T16:41:00Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。