論文の概要: Corpus-informed Retrieval Augmented Generation of Clarifying Questions
- arxiv url: http://arxiv.org/abs/2409.18575v1
- Date: Fri, 27 Sep 2024 09:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 14:58:05.971772
- Title: Corpus-informed Retrieval Augmented Generation of Clarifying Questions
- Title(参考訳): コーパスインフォームド検索による明確化質問の生成
- Authors: Antonios Minas Krasakis, Andrew Yates, Evangelos Kanoulas,
- Abstract要約: 本研究では,Web検索のための質問を明確化するコーパスを生成するモデルを開発することを目的とする。
現在のデータセットでは、探索意図は主にコーパスによって支持されており、トレーニングと評価の両方に問題がある。
本稿では,検索コーパスと基礎的真理を整合させるデータセット拡張手法を提案する。
- 参考スコア(独自算出の注目度): 23.123116796159717
- License:
- Abstract: This study aims to develop models that generate corpus informed clarifying questions for web search, in a way that ensures the questions align with the available information in the retrieval corpus. We demonstrate the effectiveness of Retrieval Augmented Language Models (RAG) in this process, emphasising their ability to (i) jointly model the user query and retrieval corpus to pinpoint the uncertainty and ask for clarifications end-to-end and (ii) model more evidence documents, which can be used towards increasing the breadth of the questions asked. However, we observe that in current datasets search intents are largely unsupported by the corpus, which is problematic both for training and evaluation. This causes question generation models to ``hallucinate'', ie. suggest intents that are not in the corpus, which can have detrimental effects in performance. To address this, we propose dataset augmentation methods that align the ground truth clarifications with the retrieval corpus. Additionally, we explore techniques to enhance the relevance of the evidence pool during inference, but find that identifying ground truth intents within the corpus remains challenging. Our analysis suggests that this challenge is partly due to the bias of current datasets towards clarification taxonomies and calls for data that can support generating corpus-informed clarifications.
- Abstract(参考訳): 本研究の目的は,検索コーパスで利用可能な情報に一致した質問をWeb検索に対して明確化するコーパスを生成するモデルを開発することである。
このプロセスにおける検索言語モデル(RAG)の有効性を実証し,その能力を強調した。
一 ユーザクエリと検索コーパスを共同でモデル化し、不確実性を特定し、エンドツーエンドの明確化を求めること。
二 質問の幅を拡大するために利用可能な証拠書類をモデル化すること。
しかし、現在のデータセットでは、探索意図はコーパスによって大きく支持され、トレーニングと評価の両方に問題がある。
これにより、質問生成モデルは ``hallucinate'' となる。
パフォーマンスに有害な影響を与えるコーパスにないインテントを提案する。
そこで本研究では,基礎的真理を検索コーパスと整合させるデータセット拡張手法を提案する。
さらに、推論中にエビデンスプールの関連性を高める手法についても検討するが、コーパス内の真理な意図を特定することは依然として困難である。
我々の分析では、この課題は、現在のデータセットの分類分類への偏りと、コーパスインフォームド・クラシフィケーションの生成を支援するデータ要求によるものであることを示唆している。
関連論文リスト
- Do You Know What You Are Talking About? Characterizing Query-Knowledge Relevance For Reliable Retrieval Augmented Generation [19.543102037001134]
言語モデル(LM)は幻覚や誤報に悩まされていることが知られている。
外部知識コーパスから検証可能な情報を検索する検索拡張生成(RAG)は、これらの問題に対する具体的な解決策を提供する。
RAG生成品質は、ユーザのクエリと検索したドキュメントの関連性に大きく依存する。
論文 参考訳(メタデータ) (2024-10-10T19:14:55Z) - Corpus-Steered Query Expansion with Large Language Models [35.64662397095323]
我々はCSQE(Corpus-Steered Query Expansion)を導入し,コーパス内に埋め込まれた知識の取り込みを促進する。
CSQEは、LLMの関連性評価機能を利用して、最初に検索された文書の重要文を体系的に同定する。
大規模な実験により、CSQEは訓練を必要とせず、特にLLMが知識を欠いているクエリで強い性能を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-28T03:58:58Z) - PAQA: Toward ProActive Open-Retrieval Question Answering [34.883834970415734]
本研究の目的は、ユーザクエリとドキュメントの両方に存在する固有の曖昧さを考慮し、関連性のある明確な質問を生成するという課題に取り組むことである。
本稿では,既存のAmbiNQデータセットの拡張であるPAQAを提案する。
次に,様々なモデルの評価を行い,経路探索があいまいさの検出と明瞭な質問の生成にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2024-02-26T14:40:34Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Towards Reliable and Factual Response Generation: Detecting Unanswerable
Questions in Information-Seeking Conversations [16.99952884041096]
生成的AIモデルは、そのようなシステムに対するユーザの信頼を損なう可能性のある幻覚の課題に直面します。
本稿では,まずコーパス内の関連するパスを識別し,最後にシステム応答にまとめる2段階のプロセスとして,会話情報探索の問題にアプローチする。
具体的には,文レベル分類器を用いて解答の有無を判定し,これらの予測を文レベルに集約し,最後に最終解答可能性推定値に到達する。
論文 参考訳(メタデータ) (2024-01-21T10:15:36Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - Adapting the NICT-JLE Corpus for Disfluency Detection Models [9.90780328490921]
本稿では,NICT-JLEコーパスの拡散検出モデルトレーニングおよび評価に適した形式への適応について述べる。
NICT-JLE と Switchboard コーパスの相違点について検討し,タグセットとメタ機能への適応について概説した。
本研究の結果は,学習者音声の拡散検出に使用される標準列車,ホールドアウト,テストセットを提供する。
論文 参考訳(メタデータ) (2023-08-04T17:54:52Z) - Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。
このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文 参考訳(メタデータ) (2020-10-12T06:43:10Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。