論文の概要: S2M: Converting Single-Turn to Multi-Turn Datasets for Conversational
Question Answering
- arxiv url: http://arxiv.org/abs/2312.16511v1
- Date: Wed, 27 Dec 2023 10:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 19:00:52.812473
- Title: S2M: Converting Single-Turn to Multi-Turn Datasets for Conversational
Question Answering
- Title(参考訳): S2M:会話型質問応答のためのシングルTurnからマルチTurnへの変換
- Authors: Baokui Li, Sen Zhang, Wangshu Zhang, Yicheng Chen, Changlin Yang, Sen
Hu, Teng Xu, Siye liu, Jiwei Li
- Abstract要約: 本稿では,シングルターンデータセットをマルチターンデータセットに変換する新しい手法を提案する。
S2Mは応募時にQuACのリーダーボードで1位にランクインした。
- 参考スコア(独自算出の注目度): 16.930522435912717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supplying data augmentation to conversational question answering (CQA) can
effectively improve model performance. However, there is less improvement from
single-turn datasets in CQA due to the distribution gap between single-turn and
multi-turn datasets. On the other hand, while numerous single-turn datasets are
available, we have not utilized them effectively. To solve this problem, we
propose a novel method to convert single-turn datasets to multi-turn datasets.
The proposed method consists of three parts, namely, a QA pair Generator, a QA
pair Reassembler, and a question Rewriter. Given a sample consisting of context
and single-turn QA pairs, the Generator obtains candidate QA pairs and a
knowledge graph based on the context. The Reassembler utilizes the knowledge
graph to get sequential QA pairs, and the Rewriter rewrites questions from a
conversational perspective to obtain a multi-turn dataset S2M. Our experiments
show that our method can synthesize effective training resources for CQA.
Notably, S2M ranks 1st place on the QuAC leaderboard at the time of submission
(Aug 24th, 2022).
- Abstract(参考訳): 会話型質問応答(CQA)へのデータ追加は、効果的にモデル性能を向上させることができる。
しかし、シングルターンデータセットとマルチターンデータセットの分散ギャップのため、CQAにおけるシングルターンデータセットの改善は少ない。
一方,シングルターンデータセットは多数用意されているが,有効利用はされていない。
そこで本研究では,シングルターンデータセットをマルチターンデータセットに変換する新しい手法を提案する。
提案手法は, qaペア生成器, qaペア再組み立て器, 質問書き直し器の3つの部分からなる。
コンテクストとシングルターンQAペアからなるサンプルが与えられた場合、ジェネレータはコンテキストに基づいて候補QAペアと知識グラフを取得する。
Reassemblerは知識グラフを利用して逐次QAペアを取得し、Rewriterは会話の観点から質問を書き直してマルチターンデータセットS2Mを得る。
提案手法は,CQAのための効果的なトレーニング資源を合成できることを示す。
特に、S2Mは提出時点でQuACのリーダーボードで1位(2022年8月24日)。
関連論文リスト
- A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - HeteroQA: Learning towards Question-and-Answering through Multiple
Information Sources via Heterogeneous Graph Modeling [50.39787601462344]
コミュニティ質問回答(Community Question Answering, CQA)は、Eコマースやオンラインユーザコミュニティなど、多くのシナリオで利用することができる、明確に定義されたタスクである。
CQAの手法のほとんどは、知識を抽出し、ユーザの質問に答えるために記事やウィキペディアしか含まない。
ユーザコミュニティに複数の情報ソース(MIS)を組み込んで回答を自動的に生成する問合せ対応の異種グラフ変換器を提案する。
論文 参考訳(メタデータ) (2021-12-27T10:16:43Z) - Generating Self-Contained and Summary-Centric Question Answer Pairs via
Differentiable Reward Imitation Learning [7.2745835227138045]
本稿では,質問応答対(QAペア)を自己完結型,要約型,長さ制約型,記事要約型で生成するモデルを提案する。
このデータセットは、回答として要約を生成するQAペア生成モデルを学ぶために使用される。
論文 参考訳(メタデータ) (2021-09-10T06:34:55Z) - Tell Me How to Ask Again: Question Data Augmentation with Controllable
Rewriting in Continuous Space [94.8320535537798]
機械読解(MRC)、質問生成、質問答え自然言語推論タスクのための制御可能な書き換えベースの質問データ拡張(CRQDA)。
質問データ拡張タスクを制約付き質問書き換え問題として扱い、コンテキスト関連、高品質、多様な質問データサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-04T03:13:46Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。