論文の概要: Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading Comprehension
- arxiv url: http://arxiv.org/abs/2404.17991v3
- Date: Tue, 15 Oct 2024 18:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:12.426444
- Title: Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading Comprehension
- Title(参考訳): 機械読取理解における質問応答スパン抽出による事前学習型生成言語モデルの強化
- Authors: Lin Ai, Zheng Hui, Zizhou Liu, Julia Hirschberg,
- Abstract要約: 学習前生成言語モデル(PLM)の微調整段階で統合されたQASEは,その性能を著しく向上させる。
QASEモジュールの有効性は、さまざまなデータセットで厳格にテストされている。
- 参考スコア(独自算出の注目度): 6.602323571343169
- License:
- Abstract: Machine Reading Comprehension (MRC) poses a significant challenge in the field of Natural Language Processing (NLP). While mainstream MRC methods predominantly leverage extractive strategies using encoder-only models such as BERT, generative approaches face the issue of out-of-control generation -- a critical problem where answers generated are often incorrect, irrelevant, or unfaithful to the source text. To address these limitations in generative models for MRC, we introduce the Question-Attended Span Extraction (QASE) module. Integrated during the fine-tuning phase of pre-trained generative language models (PLMs), QASE significantly enhances their performance, allowing them to surpass the extractive capabilities of advanced Large Language Models (LLMs) such as GPT-4 in few-shot settings. Notably, these gains in performance do not come with an increase in computational demands. The efficacy of the QASE module has been rigorously tested across various datasets, consistently achieving or even surpassing state-of-the-art (SOTA) results, thereby bridging the gap between generative and extractive models in extractive MRC tasks.
- Abstract(参考訳): Machine Reading Comprehension (MRC) は自然言語処理(NLP)分野において重要な課題である。
主流のMRC手法は、BERTのようなエンコーダのみのモデルを用いた抽出戦略を主に活用するが、生成的アプローチは制御外生成の問題に直面している。
MRC生成モデルにおけるこれらの制限に対処するため,QASEモジュールを提案する。
事前学習された生成言語モデル(PLM)の微調整フェーズにおいて、QASEは性能を大幅に向上させ、GPT-4のような先進的な大規模言語モデル(LLM)の抽出能力を数ショットで超えるようにした。
特に、これらの性能向上は、計算要求の増加には至らない。
QASEモジュールの有効性は、様々なデータセットで厳密にテストされ、一貫して最先端(SOTA)の結果を達成または超えているため、抽出MCCタスクにおける生成モデルと抽出モデルの間のギャップを埋めることになる。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - QASE Enhanced PLMs: Improved Control in Text Generation for MRC [6.602323571343169]
本稿では,機械読取理解のための生成モデルにおける制御外生成の課題に対処するため,QASEモジュールを提案する。
事前学習された生成言語モデル(PLM)の微調整中に統合されたQASEは、これらのPLMをSOTA抽出法にマッチさせることができる。
論文 参考訳(メタデータ) (2024-02-26T05:34:16Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Maximizing Efficiency of Language Model Pre-training for Learning
Representation [6.518508607788086]
ELECTRAは、事前訓練された言語モデルの計算効率を改善するための新しいアプローチである。
本研究は,事前学習プロセスの効率を最大化する適応早期終了戦略を提案する。
論文 参考訳(メタデータ) (2021-10-13T10:25:06Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Multi-span Style Extraction for Generative Reading Comprehension [90.6069071495214]
生成的MRCをマルチスパン抽出としてスムーズに解決できる新しいフレームワークを提案する。
より詳細な実験により、この新しいアプローチは生成モデルと単一スパンモデルの間のジレンマを緩和できることを示した。
論文 参考訳(メタデータ) (2020-09-15T23:06:48Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。