論文の概要: Building Open-Retrieval Conversational Question Answering Systems by Generating Synthetic Data and Decontextualizing User Questions
- arxiv url: http://arxiv.org/abs/2507.04884v1
- Date: Mon, 07 Jul 2025 11:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.394987
- Title: Building Open-Retrieval Conversational Question Answering Systems by Generating Synthetic Data and Decontextualizing User Questions
- Title(参考訳): 合成データの生成とユーザ質問の非テクスチャ化によるオープン検索対話型質問応答システムの構築
- Authors: Christos Vlachos, Nikolaos Stylianou, Alexandra Fiotaki, Spiros Methenitis, Elisavet Palogiannidi, Themos Stafylakis, Ion Androutsopoulos,
- Abstract要約: 本稿では,アノテーション付きリアルなOR-CONVQAダイアログを自動生成するパイプラインを提案する。
我々は,対話型質問応答対,自己完結型(Decontextualized,例:参照表現なし)バージョンのユーザ質問と提案を生成する。
検索された情報と非文化された質問は、システムの応答を生成するLCMに渡される。
- 参考スコア(独自算出の注目度): 49.413959071830945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider open-retrieval conversational question answering (OR-CONVQA), an extension of question answering where system responses need to be (i) aware of dialog history and (ii) grounded in documents (or document fragments) retrieved per question. Domain-specific OR-CONVQA training datasets are crucial for real-world applications, but hard to obtain. We propose a pipeline that capitalizes on the abundance of plain text documents in organizations (e.g., product documentation) to automatically produce realistic OR-CONVQA dialogs with annotations. Similarly to real-world humanannotated OR-CONVQA datasets, we generate in-dialog question-answer pairs, self-contained (decontextualized, e.g., no referring expressions) versions of user questions, and propositions (sentences expressing prominent information from the documents) the system responses are grounded in. We show how the synthetic dialogs can be used to train efficient question rewriters that decontextualize user questions, allowing existing dialog-unaware retrievers to be utilized. The retrieved information and the decontextualized question are then passed on to an LLM that generates the system's response.
- Abstract(参考訳): オープン検索型会話型質問応答 (OR-CONVQA) は,システム応答の必要な部分に対する質問応答の拡張である。
(i)対話の歴史と認識
(二)質問毎に検索した文書(又は文書の断片)を根拠とする。
ドメイン固有のOR-CONVQAトレーニングデータセットは、現実世界のアプリケーションには不可欠だが、入手は困難である。
本稿では,組織内の平易な文書(例えば製品資料)を豊富に活用して,アノテーションを付加したリアルなOR-CONVQAダイアログを自動生成するパイプラインを提案する。
実世界のヒューマンアノテートOR-CONVQAデータセットと同様に,自己完結型(Decontextualized, eg, no reference expression)のユーザ質問のバージョンと命題(文書からの顕著な情報を表す文)を生成する。
合成ダイアログを用いて、ユーザの質問を非テキスト化する効率的な質問書き直しを訓練し、既存のダイアログを意識しないレトリバーを利用できることを示す。
検索された情報と非文化された質問は、システムの応答を生成するLCMに渡される。
関連論文リスト
- Dialogizer: Context-aware Conversational-QA Dataset Generation from
Textual Sources [18.09705075305591]
本稿では,文脈関連性の高いConvQAデータセットを自動生成する機能を備えたDialogizerという新しいフレームワークを提案する。
複数のドメインからの文書を一次ソースとして利用して,ConvQAデータセットを4つ作成する。
論文 参考訳(メタデータ) (2023-11-09T06:03:11Z) - Social Commonsense-Guided Search Query Generation for Open-Domain
Knowledge-Powered Conversations [66.16863141262506]
本稿では,ソーシャルコモンセンスによってガイドされたインターネット検索クエリ生成に焦点を当てた新しいアプローチを提案する。
提案フレームワークは,トピックトラッキング,コモンセンス応答生成,命令駆動クエリ生成を統合することで,受動的ユーザインタラクションに対処する。
論文 参考訳(メタデータ) (2023-10-22T16:14:56Z) - Conversational Tree Search: A New Hybrid Dialog Task [21.697256733634124]
FAQ型情報検索とタスク指向対話のギャップを埋める新しいタスクとして,会話木探索(CTS)を導入した。
その結果,新たなアーキテクチャは,ベースラインで使用されるFAQとダイアログシステムの両方の肯定的な側面を結合し,より高い目標達成を実現していることがわかった。
論文 参考訳(メタデータ) (2023-03-17T19:50:51Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Building and Evaluating Open-Domain Dialogue Corpora with Clarifying
Questions [65.60888490988236]
オープンドメインのシングルターンとマルチターンの会話に焦点を当てたデータセットをリリースする。
我々は最先端のニューラルベースラインをいくつかベンチマークする。
様々な対話における質問の明確化の質を評価するための,オフラインおよびオンラインのステップからなるパイプラインを提案する。
論文 参考訳(メタデータ) (2021-09-13T09:16:14Z) - Open-Retrieval Conversational Machine Reading [80.13988353794586]
会話機械読解では、システムは自然言語規則を解釈し、ハイレベルな質問に答え、フォローアップの明確化を問う必要がある。
既存の作業では、ルールテキストがユーザ毎の質問に対して提供されると仮定し、実際のシナリオにおいて必須の検索ステップを無視する。
本研究では,対話型機械読解のオープンリトリーバル設定を提案し,検討する。
論文 参考訳(メタデータ) (2021-02-17T08:55:01Z) - Saying No is An Art: Contextualized Fallback Responses for Unanswerable
Dialogue Queries [3.593955557310285]
ほとんどの対話システムは、ランク付けされた応答を生成するためのハイブリッドアプローチに依存している。
ユーザクエリに対して文脈的に認識された応答を生成するニューラルネットワークを設計する。
我々の単純なアプローチでは、依存関係解析のルールと、質問応答ペアの合成データに基づいて微調整されたテキストからテキストへの変換を行う。
論文 参考訳(メタデータ) (2020-12-03T12:34:22Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。