論文の概要: ANNA: Enhanced Language Representation for Question Answering
- arxiv url: http://arxiv.org/abs/2203.14507v1
- Date: Mon, 28 Mar 2022 05:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 05:07:37.406640
- Title: ANNA: Enhanced Language Representation for Question Answering
- Title(参考訳): ANNA: 質問応答のための言語表現の強化
- Authors: Changwook Jun, Hansol Jang, Myoseop Sim, Hyun Kim, Jooyoung Choi,
Kyungkoo Min, Kyunghoon Bae
- Abstract要約: 事前学習モデルでは,各アプローチが個別にパフォーマンスにどう影響するかを示し,そのアプローチが共同で検討されている。
本稿では,事前学習タスクの拡張と,近隣のトークンにもっと参加して,事前学習言語モデリングのコンテキストの豊かさを把握できる新しい近隣認識機構を提案する。
我々の最良のモデルは、SQuAD 1.1上で95.7% F1と90.6% EMの新たな最先端結果を実現し、RoBERTa、ALBERT、ELECTRA、XLNetといった既存のトレーニング済み言語モデルよりも優れている。
- 参考スコア(独自算出の注目度): 5.713808202873983
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pre-trained language models have brought significant improvements in
performance in a variety of natural language processing tasks. Most existing
models performing state-of-the-art results have shown their approaches in the
separate perspectives of data processing, pre-training tasks, neural network
modeling, or fine-tuning. In this paper, we demonstrate how the approaches
affect performance individually, and that the language model performs the best
results on a specific question answering task when those approaches are jointly
considered in pre-training models. In particular, we propose an extended
pre-training task, and a new neighbor-aware mechanism that attends neighboring
tokens more to capture the richness of context for pre-training language
modeling. Our best model achieves new state-of-the-art results of 95.7\% F1 and
90.6\% EM on SQuAD 1.1 and also outperforms existing pre-trained language
models such as RoBERTa, ALBERT, ELECTRA, and XLNet on the SQuAD 2.0 benchmark.
- Abstract(参考訳): 事前学習された言語モデルは、様々な自然言語処理タスクのパフォーマンスを大幅に改善した。
最先端の結果を実行する既存のモデルの多くは、データ処理、事前トレーニングタスク、ニューラルネットワークモデリング、微調整といった異なる視点でアプローチを示している。
本稿では,これらのアプローチが個々にパフォーマンスに与える影響を実証し,事前学習モデルにおいて,特定の質問応答タスクに対して言語モデルが最善の結果をもたらすことを示す。
特に,事前学習タスクの拡張と,隣接するトークンにもっと参加して,事前学習言語モデリングにおけるコンテキストの豊かさを捉えるための新しい隣人認識機構を提案する。
我々の最良のモデルは、SQuAD 1.1で95.7\% F1と90.6\% EMの新たな最先端結果を達成するとともに、SQuAD 2.0ベンチマークでRoBERTa、ALBERT、ELECTRA、XLNetといった既存のトレーニング済み言語モデルよりも優れている。
関連論文リスト
- Pretrained Generative Language Models as General Learning Frameworks for
Sequence-Based Tasks [0.0]
そこで本研究では,素小事前学習型生成言語モデルをシーケンスベースタスクの一般的な学習フレームワークとして利用することを提案する。
提案では,ニューラルネットワークと言語モデルをスクラッチからトレーニングする際の計算資源,スキルセット,タイムラインの課題を克服する。
125M,350M,1.3Bパラメータを事前学習した基礎言語モデルを1万から1000,000の命令例で微調整できることを実証した。
論文 参考訳(メタデータ) (2024-02-08T12:19:32Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - A Comparative Study on Language Models for Task-Oriented Dialogue
Systems [14.634286037008017]
タスク指向対話(ToD)システムでは、言語モデルを使ってエンドツーエンドのトレーニングを行うことができる。
BARTとT5は、BLEUとF1でGPTベースのモデルより優れ、ToDシステムで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-21T13:24:25Z) - Language Models are Few-Shot Butlers [0.2538209532048867]
本稿では,実演から学ぶ2段階の手順を紹介し,環境との相互作用によりさらに改善する。
本稿では,alfworld環境における既存手法よりも言語モデルに精細な調整を施し,簡単な強化学習アルゴリズムにより51%の成功率を向上できることを示す。
論文 参考訳(メタデータ) (2021-04-16T08:47:07Z) - Learning Better Sentence Representation with Syntax Information [0.0]
構文情報と予め訓練された言語モデルを組み合わせるための新しいアプローチを提案する。
本モデルは91.2%の精度を達成し, 文完成作業では37.8%の精度でベースラインモデルを上回った。
論文 参考訳(メタデータ) (2021-01-09T12:15:08Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。