論文の概要: Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading Comprehension
- arxiv url: http://arxiv.org/abs/2404.17991v3
- Date: Tue, 15 Oct 2024 18:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:12.426444
- Title: Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading Comprehension
- Title(参考訳): 機械読取理解における質問応答スパン抽出による事前学習型生成言語モデルの強化
- Authors: Lin Ai, Zheng Hui, Zizhou Liu, Julia Hirschberg,
- Abstract要約: 学習前生成言語モデル(PLM)の微調整段階で統合されたQASEは,その性能を著しく向上させる。
QASEモジュールの有効性は、さまざまなデータセットで厳格にテストされている。
- 参考スコア(独自算出の注目度): 6.602323571343169
- License:
- Abstract: Machine Reading Comprehension (MRC) poses a significant challenge in the field of Natural Language Processing (NLP). While mainstream MRC methods predominantly leverage extractive strategies using encoder-only models such as BERT, generative approaches face the issue of out-of-control generation -- a critical problem where answers generated are often incorrect, irrelevant, or unfaithful to the source text. To address these limitations in generative models for MRC, we introduce the Question-Attended Span Extraction (QASE) module. Integrated during the fine-tuning phase of pre-trained generative language models (PLMs), QASE significantly enhances their performance, allowing them to surpass the extractive capabilities of advanced Large Language Models (LLMs) such as GPT-4 in few-shot settings. Notably, these gains in performance do not come with an increase in computational demands. The efficacy of the QASE module has been rigorously tested across various datasets, consistently achieving or even surpassing state-of-the-art (SOTA) results, thereby bridging the gap between generative and extractive models in extractive MRC tasks.
- Abstract(参考訳): Machine Reading Comprehension (MRC) は自然言語処理(NLP)分野において重要な課題である。
主流のMRC手法は、BERTのようなエンコーダのみのモデルを用いた抽出戦略を主に活用するが、生成的アプローチは制御外生成の問題に直面している。
MRC生成モデルにおけるこれらの制限に対処するため,QASEモジュールを提案する。
事前学習された生成言語モデル(PLM)の微調整フェーズにおいて、QASEは性能を大幅に向上させ、GPT-4のような先進的な大規模言語モデル(LLM)の抽出能力を数ショットで超えるようにした。
特に、これらの性能向上は、計算要求の増加には至らない。
QASEモジュールの有効性は、様々なデータセットで厳密にテストされ、一貫して最先端(SOTA)の結果を達成または超えているため、抽出MCCタスクにおける生成モデルと抽出モデルの間のギャップを埋めることになる。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - QASE Enhanced PLMs: Improved Control in Text Generation for MRC [6.602323571343169]
本稿では,機械読取理解のための生成モデルにおける制御外生成の課題に対処するため,QASEモジュールを提案する。
事前学習された生成言語モデル(PLM)の微調整中に統合されたQASEは、これらのPLMをSOTA抽出法にマッチさせることができる。
論文 参考訳(メタデータ) (2024-02-26T05:34:16Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Maximizing Efficiency of Language Model Pre-training for Learning
Representation [6.518508607788086]
ELECTRAは、事前訓練された言語モデルの計算効率を改善するための新しいアプローチである。
本研究は,事前学習プロセスの効率を最大化する適応早期終了戦略を提案する。
論文 参考訳(メタデータ) (2021-10-13T10:25:06Z) - Multi-span Style Extraction for Generative Reading Comprehension [90.6069071495214]
生成的MRCをマルチスパン抽出としてスムーズに解決できる新しいフレームワークを提案する。
より詳細な実験により、この新しいアプローチは生成モデルと単一スパンモデルの間のジレンマを緩和できることを示した。
論文 参考訳(メタデータ) (2020-09-15T23:06:48Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。