論文の概要: Testing Question Answering Software with Context-Driven Question Generation
- arxiv url: http://arxiv.org/abs/2511.07924v1
- Date: Wed, 12 Nov 2025 01:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.546962
- Title: Testing Question Answering Software with Context-Driven Question Generation
- Title(参考訳): コンテキスト駆動型質問生成ソフトウェアによる質問応答テスト
- Authors: Shuang Liu, Zhirun Zhang, Jinhao Dong, Zan Wang, Qingchao Shen, Junjie Chen, Wei Lu, Xiaoyong Du,
- Abstract要約: 質問応答システムをテストするための文脈駆動型質問生成手法であるCQ2Aを紹介する。
CQ2Aは文脈から実体と関係を抽出し、根拠となる真理の答えを形成する。
CQ2Aは、バグ検出能力、生成された質問の自然さ、コンテキストのカバレッジにおいて、最先端のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 19.83376005515088
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Question-answering software is becoming increasingly integrated into our daily lives, with prominent examples including Apple Siri and Amazon Alexa. Ensuring the quality of such systems is critical, as incorrect answers could lead to significant harm. Current state-of-the-art testing approaches apply metamorphic relations to existing test datasets, generating test questions based on these relations. However, these methods have two key limitations. First, they often produce unnatural questions that humans are unlikely to ask, reducing the effectiveness of the generated questions in identifying bugs that might occur in real-world scenarios. Second, these questions are generated from pre-existing test datasets, ignoring the broader context and thus limiting the diversity and relevance of the generated questions. In this work, we introduce CQ^2A, a context-driven question generation approach for testing question-answering systems. Specifically, CQ^2A extracts entities and relationships from the context to form ground truth answers, and utilizes large language models to generate questions based on these ground truth answers and the surrounding context. We also propose the consistency verification and constraint checking to increase the reliability of LLM's outputs. Experiments conducted on three datasets demonstrate that CQ^2A outperforms state-of-the-art approaches on the bug detection capability, the naturalness of the generated questions as well as the coverage of the context. Moreover, the test cases generated by CQ^2A reduce error rate when utilized for fine-tuning the QA software under test
- Abstract(参考訳): 質問応答ソフトウェアは、AppleのSiriやAmazon Alexaなど、私たちの日常生活にますます統合されつつある。
このようなシステムの品質の保証は、誤った回答が重大な損害をもたらす可能性があるため、極めて重要である。
現在の最先端テストアプローチでは、既存のテストデータセットにメタモルフィックな関係を適用し、これらの関係に基づいてテスト質問を生成する。
しかし、これらの手法には2つの重要な制限がある。
まず、現実のシナリオで起こりうるバグを特定する際に生成された質問の有効性を減らし、人間が疑うことのできない不自然な質問をしばしば生み出す。
第二に、これらの質問は既存のテストデータセットから生成され、より広いコンテキストを無視し、生成された質問の多様性と関連性を制限する。
本研究では,質問応答システムをテストするための文脈駆動型質問生成手法であるCQ^2Aを紹介する。
具体的には、CQ^2Aは、文脈から実体と関係を抽出して、基底真理の答えを形成し、これらの基底真理の答えと周囲の文脈に基づいて、大きな言語モデルを用いて質問を生成する。
また、LCMの出力の信頼性を高めるために、整合性検証と制約チェックを提案する。
3つのデータセットで実施された実験により、CQ^2Aは、バグ検出能力、生成された質問の自然さ、およびコンテキストのカバレッジにおいて、最先端のアプローチよりも優れていることが示された。
さらに、CQ^2Aにより生成されたテストケースは、テスト中のQAソフトウェアを微調整する際にエラー率を低減する。
関連論文リスト
- UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。
未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。
上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文 参考訳(メタデータ) (2025-08-25T01:07:59Z) - Syn-QA2: Evaluating False Assumptions in Long-tail Questions with Synthetic QA Datasets [7.52684798377727]
合成された質問応答(QA)データセットの集合であるSyn-(QA)$2$を紹介する。
先行研究の結果を反映して,QAにおける誤った仮定は困難であることが判明した。
検出タスクは、自然発生の質問よりも長い尾の質問の方が難しい。
論文 参考訳(メタデータ) (2024-03-18T18:01:26Z) - Alexpaca: Learning Factual Clarification Question Generation Without Examples [19.663171923249283]
本稿では,マルチホップ推論タスクにおける欠落情報を抽出する機能に着目した新しいタスクを提案する。
Llama 3 8B Instructはいくつかの指標ではダミーベースラインに勝ってもいない。
論文 参考訳(メタデータ) (2023-10-17T20:40:59Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - AGent: A Novel Pipeline for Automatically Creating Unanswerable
Questions [10.272000561545331]
我々は、質問を正しい回答に必要な情報を持たないコンテキストで再マッチングすることで、新しい解決不可能な質問を生成する新しいパイプラインであるAGentを提案する。
本稿では,SQuAD と HotpotQA の解答可能な質問から2組の解答不可能な質問を生成することにより,この AGent パイプラインの有用性を実証する。
論文 参考訳(メタデータ) (2023-09-10T18:13:11Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - How to Build Robust FAQ Chatbot with Controllable Question Generator? [5.680871239968297]
本稿では, セマンティックグラフを用いて, 高い品質, 多様性, 制御可能なサンプルを生成する手法を提案する。
流動的でセマンティックに生成されたQAペアは、我々の通過検索モデルをうまく騙すことができる。
生成されたデータセットは、新しいターゲット領域へのQAモデルの一般化性を向上させる。
論文 参考訳(メタデータ) (2021-11-18T12:54:07Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - Tell Me How to Ask Again: Question Data Augmentation with Controllable
Rewriting in Continuous Space [94.8320535537798]
機械読解(MRC)、質問生成、質問答え自然言語推論タスクのための制御可能な書き換えベースの質問データ拡張(CRQDA)。
質問データ拡張タスクを制約付き質問書き換え問題として扱い、コンテキスト関連、高品質、多様な質問データサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-04T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。