論文の概要: ConvSDG: Session Data Generation for Conversational Search
- arxiv url: http://arxiv.org/abs/2403.11335v1
- Date: Sun, 17 Mar 2024 20:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 17:27:03.142849
- Title: ConvSDG: Session Data Generation for Conversational Search
- Title(参考訳): ConvSDG:会話検索のためのセッションデータ生成
- Authors: Fengran Mo, Bole Yi, Kelong Mao, Chen Qu, Kaiyu Huang, Jian-Yun Nie,
- Abstract要約: 本稿では,セッションデータ生成のための大規模言語モデル(LLM)を用いて,対話型検索の実現可能性を検討する枠組みを提案する。
このフレームワーク内では、教師なしおよび半教師なし学習による対話/セッションレベルおよびクエリレベルのデータ生成を設計する。
生成されたデータは、会話の密集したレトリバーを微調整するために使用される。
- 参考スコア(独自算出の注目度): 29.211860955861244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational search provides a more convenient interface for users to search by allowing multi-turn interaction with the search engine. However, the effectiveness of the conversational dense retrieval methods is limited by the scarcity of training data required for their fine-tuning. Thus, generating more training conversational sessions with relevant labels could potentially improve search performance. Based on the promising capabilities of large language models (LLMs) on text generation, we propose ConvSDG, a simple yet effective framework to explore the feasibility of boosting conversational search by using LLM for session data generation. Within this framework, we design dialogue/session-level and query-level data generation with unsupervised and semi-supervised learning, according to the availability of relevance judgments. The generated data are used to fine-tune the conversational dense retriever. Extensive experiments on four widely used datasets demonstrate the effectiveness and broad applicability of our ConvSDG framework compared with several strong baselines.
- Abstract(参考訳): 対話型検索は、検索エンジンとのマルチターンインタラクションを可能にすることによって、ユーザが検索する上でより便利なインターフェースを提供する。
しかし,対話型高密度検索手法の有効性は,微調整に必要な訓練データの不足によって制限される。
したがって、関連するラベルでより多くのトレーニングの会話セッションを生成することで、検索性能が向上する可能性がある。
テキスト生成における大規模言語モデル(LLM)の有望な機能に基づいて,セッションデータ生成にLLMを用いることで,会話検索の促進の可能性を探るための,シンプルかつ効果的なフレームワークであるConvSDGを提案する。
このフレームワーク内では、関連判断の可用性に応じて、教師なしおよび半教師なし学習による対話/セッションレベルおよびクエリレベルのデータ生成を設計する。
生成されたデータは、会話の密集したレトリバーを微調整するために使用される。
広く使用されている4つのデータセットに対する大規模な実験は、いくつかの強力なベースラインと比較して、私たちのConvSDGフレームワークの有効性と幅広い適用性を示している。
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - ChatRetriever: Adapting Large Language Models for Generalized and Robust Conversational Dense Retrieval [37.24069808198862]
会話検索には複雑なマルチターンコンテキストからのユーザの意図を正確に解釈する必要がある。
本稿では,大規模言語モデルの強力な一般化能力を継承したChatRetrieverについて述べる。
論文 参考訳(メタデータ) (2024-04-21T07:03:55Z) - Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries [48.243879779374836]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。
従来は検索キーやクエリとして生の対話コンテキストを使用していた。
会話のテキスト要約に基づいて会話検索を行う。
LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文 参考訳(メタデータ) (2024-02-20T14:31:17Z) - CONVERSER: Few-Shot Conversational Dense Retrieval with Synthetic Data
Generation [32.10366004426449]
対話型高密度検索のためのフレームワークであるConVERSERを提案する。
我々は,大言語モデルのテキスト内学習機能を利用して,検索コーパスの文節に与えられた会話クエリを生成する。
対話型検索ベンチマークOR-QuACとTREC CAsT 19の実験結果から,提案したConverSERは完全教師付きモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-09-13T06:40:24Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - Database Search Results Disambiguation for Task-Oriented Dialog Systems [37.36255492341847]
本稿では,データベース検索結果の曖昧化に着目した新しい課題であるデータベース検索結果(DSR)の曖昧化を提案する。
この課題を研究するために、一般的なタスク指向のダイアログデータセット(MultiWOZとSGD)を拡張し、(a)事前に定義された文法を合成的に生成し、(b)サブセットのための人間のパラフレーズを収集する。
拡張ダイアログデータのトレーニングは、修正されていないターンのパフォーマンスを犠牲にすることなく、曖昧なシナリオに対処するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2021-12-15T18:56:18Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。