論文の概要: Pragmatic Evaluation of Clarifying Questions with Fact-Level Masking
- arxiv url: http://arxiv.org/abs/2310.11571v2
- Date: Sun, 7 Jan 2024 21:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:33:22.518692
- Title: Pragmatic Evaluation of Clarifying Questions with Fact-Level Masking
- Title(参考訳): ファクトレベルマスキングによる質問の明確化に関する実践的評価
- Authors: Matthew Toles, Yukun Huang, Zhou Yu, Luis Gravano
- Abstract要約: 質問を明確にするための自然言語実践的質問(PACQ)の定義とフレームワークを提案する。
また、自然言語データセットを自己教師付きPACQデータセットに変換するためのファクトレベルマスキング(FLM)も提案する。
実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して,有用な情報を取得するための質問に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 21.480602733510256
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ability to derive useful information by asking clarifying questions (ACQ)
is an important element of real life collaboration on reasoning tasks, such as
question answering (QA). Existing natural language ACQ challenges, however,
evaluate generations based on word overlap rather than the value of the
information itself. Word overlap is often an inappropriate metric for question
generation since many different questions could be useful in a given situation,
and a single question can be phrased many different ways. Instead, we propose
evaluating questions pragmatically based on the value of the information they
retrieve. Here we present a definition and framework for natural language
pragmatic asking of clarifying questions (PACQ), the problem of generating
questions that result in answers useful for a reasoning task. We also present
fact-level masking (FLM), a procedure for converting natural language datasets
into self-supervised PACQ datasets by omitting particular critical facts.
Finally, we generate a PACQ dataset from the HotpotQA dataset using FLM and
evaluate several zero-shot language models on it. Our experiments show that
current zero-shot models struggle to ask questions that retrieve useful
information, as compared to human annotators. These results demonstrate an
opportunity to use FLM datasets and the PACQ framework to objectively evaluate
and improve question generation and other language models.
- Abstract(参考訳): 質問の明確化(ACQ)を問うことで有用な情報を導き出す能力は、質問応答(QA)のような推論タスクにおける現実の協調の重要な要素である。
しかし、既存の自然言語ACQ課題は、情報自体の価値ではなく、単語重複に基づいて世代を評価する。
単語重複は、多くの異なる質問が与えられた状況で有用であり、一つの質問を多くの異なる方法で表現できるため、しばしば質問生成の不適切な指標である。
代わりに,検索した情報の価値に基づいて質問を実用的に評価することを提案する。
ここでは,自然言語の実践的質問(PACQ)の定義と枠組みについて述べる。
また,特定の批判的事実を省略して,自然言語データセットを自己教師付きpacqデータセットに変換する手法であるfact-level masking(flm)を提案する。
最後に、FLMを用いてHotpotQAデータセットからPACQデータセットを生成し、その上にいくつかのゼロショット言語モデルを評価する。
実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して有用な情報を取得する質問に苦慮していることがわかった。
これらの結果は、FLMデータセットとPACQフレームワークを客観的に評価し、質問生成やその他の言語モデルを改善する機会を示す。
関連論文リスト
- Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - Weakly Supervised Visual Question Answer Generation [2.7605547688813172]
視覚情報とキャプションから手続き的に質問応答対を合成的に生成する弱教師付き手法を提案する。
我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA手法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2023-06-11T08:46:42Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Would You Ask it that Way? Measuring and Improving Question Naturalness
for Knowledge Graph Question Answering [20.779777536841493]
知識グラフ質問応答(KGQA)は、ユーザから正式なクエリ言語専門知識を必要とせず、構造化されたデータを活用することで情報アクセスを容易にする。
我々は,既存のKGQAデータセットから質問を抽出し,自然性の5つの側面について評価することにより,IQN-KGQAテストコレクションを作成する。
より現実的なNL質問の定式化を行うと,いくつかのKGQAシステムはさらに悪化することがわかった。
論文 参考訳(メタデータ) (2022-05-25T13:32:27Z) - Understanding Unnatural Questions Improves Reasoning over Text [54.235828149899625]
生テキストに対する複雑な質問応答(CQA)は難しい課題である。
効果的なCQAモデルを学ぶには、大量の人間が注釈付けしたデータが必要である。
我々は、自然の人間生成の質問を非自然の機械生成の質問に投影することで、高品質なプログラマ(パーザ)を学ぶという課題に対処する。
論文 参考訳(メタデータ) (2020-10-19T10:22:16Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。