論文の概要: ClarQ: A large-scale and diverse dataset for Clarification Question
Generation
- arxiv url: http://arxiv.org/abs/2006.05986v2
- Date: Thu, 11 Jun 2020 17:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:03:41.456707
- Title: ClarQ: A large-scale and diverse dataset for Clarification Question
Generation
- Title(参考訳): ClarQ: Clarification Question Generationのための大規模かつ多様なデータセット
- Authors: Vaibhav Kumar and Alan W. black
- Abstract要約: そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
- 参考スコア(独自算出の注目度): 67.1162903046619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question answering and conversational systems are often baffled and need help
clarifying certain ambiguities. However, limitations of existing datasets
hinder the development of large-scale models capable of generating and
utilising clarification questions. In order to overcome these limitations, we
devise a novel bootstrapping framework (based on self-supervision) that assists
in the creation of a diverse, large-scale dataset of clarification questions
based on post-comment tuples extracted from stackexchange. The framework
utilises a neural network based architecture for classifying clarification
questions. It is a two-step method where the first aims to increase the
precision of the classifier and second aims to increase its recall. We
quantitatively demonstrate the utility of the newly created dataset by applying
it to the downstream task of question-answering. The final dataset, ClarQ,
consists of ~2M examples distributed across 173 domains of stackexchange. We
release this dataset in order to foster research into the field of
clarification question generation with the larger goal of enhancing dialog and
question answering systems.
- Abstract(参考訳): 質問応答と会話システムはしばしば混乱し、特定の曖昧さを明らかにするのに役立ちます。
しかし、既存のデータセットの制限は、明確化問題の生成と利用が可能な大規模モデルの開発を妨げる。
これらの制限を克服するために,スタックエクスチェンジから抽出したポストコンプレックスタプルに基づいた,多様な大規模質問のデータセット作成を支援する,新しいブートストラップフレームワーク(セルフスーパービジョンに基づく)を考案した。
このフレームワークは、明確化質問を分類するためにニューラルネットワークベースのアーキテクチャを利用する。
第1は分類器の精度向上を目標とし,第2はリコールの精度向上を目標とする2段階の手法である。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
最後のデータセットであるClarQは、スタックエクスチェンジの173ドメインに分散した約2Mのサンプルで構成されている。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
関連論文リスト
- Improving Retrieval Augmented Open-Domain Question-Answering with Vectorized Contexts [83.57864140378035]
本稿では,オープンドメイン質問応答タスクにおいて,より長いコンテキストをカバーできる手法を提案する。
コンテキストを効果的にエンコードする小さなエンコーダ言語モデルを利用し、エンコーダは元の入力とクロスアテンションを適用する。
微調整後、2つのホールドインデータセット、4つのホールドアウトデータセット、および2つのIn Context Learning設定のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2024-04-02T15:10:11Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - Improving Question Generation with Multi-level Content Planning [70.37285816596527]
本稿では、与えられたコンテキストと回答から質問を生成する問題に対処し、特に拡張されたコンテキストをまたいだマルチホップ推論を必要とする質問に焦点をあてる。
具体的には、キーフレーズを同時に選択して完全な回答を生成するFA-modelと、生成した全回答を付加的な入力として取り込んだQ-modelの2つのコンポーネントを含む。
論文 参考訳(メタデータ) (2023-10-20T13:57:01Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - ADMUS: A Progressive Question Answering Framework Adaptable to Multiple
Knowledge Sources [9.484792817869671]
ADMUSは,多様なデータセットに対応するために設計された,プログレッシブな知識ベース質問応答フレームワークである。
我々のフレームワークは、最小限の労力で、新しいデータセットのシームレスな統合をサポートします。
論文 参考訳(メタデータ) (2023-08-09T08:46:39Z) - Controllable Open-ended Question Generation with A New Question Type
Ontology [6.017006996402699]
複数の文で通常答えられるオープンエンドな質問を生成するという,探索の少ない課題について検討する。
まず、広く使われている質問語よりも、質問のニュアンスの性質をよりよく区別する新しい質問型オントロジーを定義する。
次に,意味グラフ表現によって拡張された質問型認識型質問生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-01T00:02:03Z) - Tell Me How to Ask Again: Question Data Augmentation with Controllable
Rewriting in Continuous Space [94.8320535537798]
機械読解(MRC)、質問生成、質問答え自然言語推論タスクのための制御可能な書き換えベースの質問データ拡張(CRQDA)。
質問データ拡張タスクを制約付き質問書き換え問題として扱い、コンテキスト関連、高品質、多様な質問データサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-04T03:13:46Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。