論文の概要: CONVERSER: Few-Shot Conversational Dense Retrieval with Synthetic Data
Generation
- arxiv url: http://arxiv.org/abs/2309.06748v1
- Date: Wed, 13 Sep 2023 06:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 15:11:20.183743
- Title: CONVERSER: Few-Shot Conversational Dense Retrieval with Synthetic Data
Generation
- Title(参考訳): converser: 合成データ生成による会話の高密度検索
- Authors: Chao-Wei Huang, Chen-Yu Hsu, Tsu-Yuan Hsu, Chen-An Li, Yun-Nung Chen
- Abstract要約: 対話型高密度検索のためのフレームワークであるConVERSERを提案する。
我々は,大言語モデルのテキスト内学習機能を利用して,検索コーパスの文節に与えられた会話クエリを生成する。
対話型検索ベンチマークOR-QuACとTREC CAsT 19の実験結果から,提案したConverSERは完全教師付きモデルに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 32.10366004426449
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Conversational search provides a natural interface for information retrieval
(IR). Recent approaches have demonstrated promising results in applying dense
retrieval to conversational IR. However, training dense retrievers requires
large amounts of in-domain paired data. This hinders the development of
conversational dense retrievers, as abundant in-domain conversations are
expensive to collect. In this paper, we propose CONVERSER, a framework for
training conversational dense retrievers with at most 6 examples of in-domain
dialogues. Specifically, we utilize the in-context learning capability of large
language models to generate conversational queries given a passage in the
retrieval corpus. Experimental results on conversational retrieval benchmarks
OR-QuAC and TREC CAsT 19 show that the proposed CONVERSER achieves comparable
performance to fully-supervised models, demonstrating the effectiveness of our
proposed framework in few-shot conversational dense retrieval. All source code
and generated datasets are available at https://github.com/MiuLab/CONVERSER
- Abstract(参考訳): 会話検索は情報検索(IR)のための自然なインタフェースを提供する。
近年,会話型赤外線に高密度検索を適用する手法が提案されている。
しかし、高密度レトリバーのトレーニングには大量のドメイン内ペアデータが必要である。
これにより、ドメイン内会話の収集にコストがかかるため、会話の密集したレトリバーの開発が妨げられる。
本稿では,ドメイン内対話の少なくとも6つの例を用いて,対話型高密度検索を学習するためのフレームワークであるConVERSERを提案する。
具体的には,大規模言語モデルの文脈内学習機能を用いて,検索コーパスの文節に与えられた会話クエリを生成する。
対話型検索ベンチマーク or-quac と trec cast 19 の実験結果から,提案手法が完全教師付きモデルと同等の性能を達成し,提案手法の有効性を実証した。
すべてのソースコードと生成されたデータセットはhttps://github.com/MiuLab/CONVERSERで入手できる。
関連論文リスト
- ChatRetriever: Adapting Large Language Models for Generalized and Robust Conversational Dense Retrieval [37.24069808198862]
会話検索には複雑なマルチターンコンテキストからのユーザの意図を正確に解釈する必要がある。
本稿では,大規模言語モデルの強力な一般化能力を継承したChatRetrieverについて述べる。
論文 参考訳(メタデータ) (2024-04-21T07:03:55Z) - ConvSDG: Session Data Generation for Conversational Search [29.211860955861244]
本稿では,セッションデータ生成のための大規模言語モデル(LLM)を用いて,対話型検索の実現可能性を検討する枠組みを提案する。
このフレームワーク内では、教師なしおよび半教師なし学習による対話/セッションレベルおよびクエリレベルのデータ生成を設計する。
生成されたデータは、会話の密集したレトリバーを微調整するために使用される。
論文 参考訳(メタデータ) (2024-03-17T20:34:40Z) - Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries [48.243879779374836]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。
従来は検索キーやクエリとして生の対話コンテキストを使用していた。
会話のテキスト要約に基づいて会話検索を行う。
LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文 参考訳(メタデータ) (2024-02-20T14:31:17Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - History-Aware Hierarchical Transformer for Multi-session Open-domain
Dialogue System [59.78425104243993]
マルチセッションオープンドメイン対話のための履歴認識階層変換器(HAHT)を提案する。
HAHTは歴史会話の長期記憶を維持し、歴史情報を利用して現在の会話状況を理解する。
大規模マルチセッション会話データセットの実験結果は,提案したHAHTモデルがベースラインモデルより一貫して優れていることを示唆している。
論文 参考訳(メタデータ) (2023-02-02T06:54:33Z) - Open-Retrieval Conversational Question Answering [62.11228261293487]
オープン検索型対話型質問応答 (ORConvQA) の設定を導入する。
ORConvQAのエンド・ツー・エンドシステムを構築し,レトリバー,リランカ,およびすべてトランスフォーマーをベースとしたリーダを特徴とする。
論文 参考訳(メタデータ) (2020-05-22T19:39:50Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。