論文の概要: ConvMix: A Mixed-Criteria Data Augmentation Framework for Conversational Dense Retrieval
- arxiv url: http://arxiv.org/abs/2508.04001v1
- Date: Wed, 06 Aug 2025 01:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.494726
- Title: ConvMix: A Mixed-Criteria Data Augmentation Framework for Conversational Dense Retrieval
- Title(参考訳): ConvMix: 会話ディエンス検索のための混合Criteriaデータ拡張フレームワーク
- Authors: Fengran Mo, Jinghan Zhang, Yuchen Hui, Jia Ao Sun, Zhichao Xu, Zhan Su, Jian-Yun Nie,
- Abstract要約: 本研究では,対話型高密度検索のための混合基準フレームワークであるConvMixを提案する。
大規模言語モデルの助けを借りて,両面の妥当性判断拡張スキーマをスケーラブルに設計する。
広範に使用されている5つのベンチマーク実験の結果,我々のConvMixフレームワークで訓練された対話型高密度検索器は,従来のベースライン法よりも優れていた。
- 参考スコア(独自算出の注目度): 25.129468117978767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational search aims to satisfy users' complex information needs via multiple-turn interactions. The key challenge lies in revealing real users' search intent from the context-dependent queries. Previous studies achieve conversational search by fine-tuning a conversational dense retriever with relevance judgments between pairs of context-dependent queries and documents. However, this training paradigm encounters data scarcity issues. To this end, we propose ConvMix, a mixed-criteria framework to augment conversational dense retrieval, which covers more aspects than existing data augmentation frameworks. We design a two-sided relevance judgment augmentation schema in a scalable manner via the aid of large language models. Besides, we integrate the framework with quality control mechanisms to obtain semantically diverse samples and near-distribution supervisions to combine various annotated data. Experimental results on five widely used benchmarks show that the conversational dense retriever trained by our ConvMix framework outperforms previous baseline methods, which demonstrates our superior effectiveness.
- Abstract(参考訳): 会話検索は、複数ターンインタラクションによるユーザの複雑な情報ニーズを満たすことを目的としている。
重要な課題は、コンテキストに依存したクエリから、実際のユーザの検索意図を明らかにすることだ。
従来の研究は、コンテキストに依存したクエリとドキュメントのペア間の関連性判定で会話高密度検索を微調整することで、会話検索を実現している。
しかし、この訓練パラダイムはデータ不足の問題に遭遇する。
この目的のために,既存のデータ拡張フレームワークよりも多くの側面をカバーし,会話の密集度を高めるための混合基準フレームワークであるConvMixを提案する。
大規模言語モデルの助けを借りて,両面の妥当性判断拡張スキーマをスケーラブルに設計する。
さらに,本フレームワークを品質管理機構と統合し,意味的に多様なサンプルと,アノテートデータを組み合わせた準分布管理を行う。
広範に使用されている5つのベンチマーク実験の結果,我々のConvMixフレームワークで訓練された対話型高密度検索器は,従来のベースライン手法よりも優れており,優れた性能を示している。
関連論文リスト
- Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。
我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。
提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-04-15T17:35:56Z) - Leveraging Inter-Chunk Interactions for Enhanced Retrieval in Large Language Model-Based Question Answering [12.60063463163226]
IIERは、構造、キーワード、セマンティックという3つのタイプの相互作用を考慮し、ドキュメントチャンク間の内部接続をキャプチャする。
対象の質問に基づいて複数のシードノードを特定し、関連するチャンクを反復的に検索して、支持する証拠を収集する。
コンテキストと推論チェーンを洗練し、推論と回答の生成において大きな言語モデルを支援する。
論文 参考訳(メタデータ) (2024-08-06T02:39:55Z) - Improving Retrieval in Sponsored Search by Leveraging Query Context Signals [6.152499434499752]
本稿では,クエリをリッチなコンテキスト信号で拡張することで,クエリ理解を強化する手法を提案する。
我々は、Web検索のタイトルとスニペットを使って、現実世界の情報にクエリを接地し、GPT-4を使ってクエリの書き直しと説明を生成する。
我々の文脈認識アプローチは文脈自由モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-19T14:28:53Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - ConvSDG: Session Data Generation for Conversational Search [29.211860955861244]
本稿では,セッションデータ生成のための大規模言語モデル(LLM)を用いて,対話型検索の実現可能性を検討する枠組みを提案する。
このフレームワーク内では、教師なしおよび半教師なし学習による対話/セッションレベルおよびクエリレベルのデータ生成を設計する。
生成されたデータは、会話の密集したレトリバーを微調整するために使用される。
論文 参考訳(メタデータ) (2024-03-17T20:34:40Z) - Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries [48.243879779374836]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。
従来は検索キーやクエリとして生の対話コンテキストを使用していた。
会話のテキスト要約に基づいて会話検索を行う。
LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文 参考訳(メタデータ) (2024-02-20T14:31:17Z) - CONVERSER: Few-Shot Conversational Dense Retrieval with Synthetic Data
Generation [32.10366004426449]
対話型高密度検索のためのフレームワークであるConVERSERを提案する。
我々は,大言語モデルのテキスト内学習機能を利用して,検索コーパスの文節に与えられた会話クエリを生成する。
対話型検索ベンチマークOR-QuACとTREC CAsT 19の実験結果から,提案したConverSERは完全教師付きモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-09-13T06:40:24Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。