論文の概要: Training Generative Question-Answering on Synthetic Data Obtained from
an Instruct-tuned Mo
- arxiv url: http://arxiv.org/abs/2310.08072v1
- Date: Thu, 12 Oct 2023 06:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:42:03.384449
- Title: Training Generative Question-Answering on Synthetic Data Obtained from
an Instruct-tuned Mo
- Title(参考訳): インストラクテッド・モーから得られた合成データに対する学習的質問応答
- Authors: Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Tatsuya Ishigaki
- Abstract要約: 本稿では,質問応答系を学習するための簡易かつ費用対効果の高いデータ合成手法を提案する。
トレーニングでは、微調整のGPTモデルは英語のような資源に富む言語では一般的であるが、十分な問合せペアが不足しているため、英語以外の言語では困難になる。
- 参考スコア(独自算出の注目度): 4.515527639264234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a simple and cost-effective method for synthesizing data
to train question-answering systems. For training, fine-tuning GPT models is a
common practice in resource-rich languages like English, however, it becomes
challenging for non-English languages due to the scarcity of sufficient
question-answer (QA) pairs. Existing approaches use question and answer
generators trained on human-authored QA pairs, which involves substantial human
expenses. In contrast, we use an instruct-tuned model to generate QA pairs in a
zero-shot or few-shot manner. We conduct experiments to compare various
strategies for obtaining QA pairs from the instruct-tuned model. The results
demonstrate that a model trained on our proposed synthetic data achieves
comparable performance to a model trained on manually curated datasets, without
incurring human costs.
- Abstract(参考訳): 本稿では,質問応答システムの学習のための簡易かつ費用対効果の高いデータ合成手法を提案する。
トレーニングでは、英語のような資源豊富な言語では微調整のGPTモデルが一般的であるが、十分な質問応答(QA)ペアが不足しているため、英語以外の言語では難しい。
既存のアプローチでは、人間によるQAペアで訓練された質問と回答ジェネレータを使用している。
対照的に、命令付きモデルを用いてゼロショットまたは少数ショットでQAペアを生成する。
インストラクション学習モデルからQAペアを得るための様々な戦略を比較する実験を行った。
その結果,提案する合成データに基づいて学習したモデルは,人的コストを伴わずに,手作業で収集したデータセットでトレーニングされたモデルに匹敵する性能が得られることがわかった。
関連論文リスト
- Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Improving Question Answering Model Robustness with Synthetic Adversarial
Data Generation [41.9785159975426]
最先端の質問応答モデルは、様々な敵の攻撃を受けやすいままであり、人間レベルの言語理解を得るには程遠い。
提案されている1つの方法は動的逆データ収集であり、人間のアノテータがループ内のモデルが失敗する例を作成しようとするものである。
本研究では,合成逆データ生成パイプラインを構成する複数の回答選択,質問生成,フィルタリング手法について検討する。
合成データと人為的データの両方で訓練されたモデルは、合成逆数データで訓練されていないモデルより優れ、対数上での最先端の結果を得る
論文 参考訳(メタデータ) (2021-04-18T02:00:06Z) - Understanding Unnatural Questions Improves Reasoning over Text [54.235828149899625]
生テキストに対する複雑な質問応答(CQA)は難しい課題である。
効果的なCQAモデルを学ぶには、大量の人間が注釈付けしたデータが必要である。
我々は、自然の人間生成の質問を非自然の機械生成の質問に投影することで、高品質なプログラマ(パーザ)を学ぶという課題に対処する。
論文 参考訳(メタデータ) (2020-10-19T10:22:16Z) - When in Doubt, Ask: Generating Answerable and Unanswerable Questions,
Unsupervised [0.0]
質問回答(QA)は、人と機械間の堅牢なコミュニケーションを可能にするための鍵である。
現代のQAで使用される言語モデルは、いくつかの重要なタスクにおいて人間のパフォーマンスを上回っている。
本稿では,この問題を克服する手段として,人工データを用いた人為的データセットの強化について検討する。
論文 参考訳(メタデータ) (2020-10-04T15:56:44Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - Training Question Answering Models From Synthetic Data [26.91650323300262]
本研究は, 人工問合せと人為的問合せのギャップを狭めることを目的としている。
我々は830億のパラメータ GPT-2 モデルにより生成された合成コーパスから質問や回答を合成する。
人間の監督にアクセスできず、他のモデルのみにアクセスできないため、完全にモデル生成データに基づいて、アート質問応答ネットワークの状態をトレーニングすることが可能です。
論文 参考訳(メタデータ) (2020-02-22T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。