論文の概要: Enhancing the Preference Extractor in Multi-turn Dialogues: From Annotating Disasters to Accurate Preference Extraction
- arxiv url: http://arxiv.org/abs/2508.01739v1
- Date: Sun, 03 Aug 2025 12:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.039322
- Title: Enhancing the Preference Extractor in Multi-turn Dialogues: From Annotating Disasters to Accurate Preference Extraction
- Title(参考訳): マルチターン対話における選好エクストラクタの強化:アノテート災害から正確な選好抽出まで
- Authors: Cheng Wang, ziru Liu, Pengcheng Tang, Mingyu Zhang, Quanyu Dai, Yue Zhu,
- Abstract要約: 我々はtextbfIterChat という対話データ生成フレームワークを提案する。
まず,対話データを属性付き歴史的嗜好とワンターン対話に分類する新しいデータ形式を構築する。
これにより、アノテーションエラーの確率が減少し、アノテーション効率が向上する。
- 参考スコア(独自算出の注目度): 11.102491100383254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying user preferences in dialogue systems is a pivotal aspect of providing satisfying services. Current research shows that using large language models (LLMs) to fine-tune a task-specific preference extractor yields excellent results in terms of accuracy and generalization. However, the primary challenge stems from the inherent difficulty in obtaining high-quality labeled multi-turn dialogue data. Accurately tracking user preference transitions across turns not only demands intensive domain expertise and contextual consistency maintenance for annotators (termed \textbf{``Annotating Disaster''}) but also complicates model training due to error propagation in sequential dependency learning. Inspired by the observation that multi-turn preference extraction can be decomposed into iterative executions of one-turn extraction processes. We propose a novel dialogue data generation framework named \textbf{IterChat}. First, we construct a new data format that categorizes the dialogue data into attributed historical preferences and one-turn dialogues. This reduces the probability of annotation errors and improves annotation efficiency. Then, to generate a high-quality and diverse dialogue dataset, we adopt GPT4 to pre-define the preference slots in the target preference extractor task and then randomly sample the subset of the slots and their corresponding schema values to create the dialogue datasets. Experimental results indicate that fine-tuning or only few-shot prompting with the new dialogue format yields superior performance compared to the original multi-turn dialogues. Additionally, the new data format improves annotator efficiency with a win rate of 28.4\% higher than the original multi-turn dialogues.
- Abstract(参考訳): 対話システムにおけるユーザの好みを特定することは、満足度の高いサービスを提供する上で重要な側面である。
近年の研究では、大規模言語モデル(LLM)を用いてタスク固有の選好抽出器を微調整することで、精度と一般化の点で優れた結果が得られることが示されている。
しかし、主な課題は、高品質なラベル付きマルチターン対話データを得るのに固有の困難に起因する。
ドメインの専門知識とアノテータ("textbf{``Annotating Disaster'}" と呼ばれる)に対するコンテキスト整合性の維持を要求するだけでなく、逐次依存学習におけるエラーの伝播によるモデルトレーニングを複雑にする。
マルチターン選好抽出を1ターン抽出プロセスの反復実行に分解できるという観察から着想を得た。
本稿では,新しい対話データ生成フレームワークであるtextbf{IterChat}を提案する。
まず,対話データを属性付き歴史的嗜好とワンターン対話に分類する新しいデータ形式を構築する。
これにより、アノテーションエラーの確率が減少し、アノテーション効率が向上する。
そして、高品質で多様な対話データセットを生成するために、GPT4を用いて、ターゲットの選好抽出タスクの選好スロットを事前定義し、スロットとその対応するスキーマ値のサブセットをランダムにサンプリングし、対話データセットを作成する。
実験結果から,新たな対話形式による微調整や数発のみのショットプロンプトにより,従来のマルチターン対話よりも優れた性能が得られることが示された。
さらに、新しいデータ形式は、元のマルチターン対話よりも28.4\%高い勝利率でアノテータ効率を向上させる。
関連論文リスト
- Attribute Controlled Dialogue Prompting [31.09791656949115]
本稿では,対話生成のための新しいインスタンス固有のプロンプトチューニングアルゴリズムを提案する。
本手法はベースラインの促進に優れ,全パラメータの5%~6%の微調整に匹敵する。
論文 参考訳(メタデータ) (2023-07-11T12:48:55Z) - Multi-grained Hypergraph Interest Modeling for Conversational
Recommendation [75.65483522949857]
複雑な履歴データの下でユーザの興味を捉えるために, マルチグラデーション・ハイパーグラフ・インフォメーション・モデリング手法を提案する。
提案手法では,まず,ユーザの過去の対話セッションをモデル化し,セッションベースハイパーグラフを作成するためにハイパーグラフ構造を用いる。
さらに,2種類のハイパーグラフに対して多粒度ハイパーグラフの畳み込みを行い,拡張表現を用いて関心を意識したCRSを開発する。
論文 参考訳(メタデータ) (2023-05-04T13:13:44Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z) - Counterfactual Data Augmentation via Perspective Transition for
Open-Domain Dialogues [34.78482218571574]
本稿では,異なるセマンティクスによる高品質な応答を自動的に拡張するデータ拡張手法を提案する。
実験結果から,データ拡張手法は対話履歴の異なるセマンティクスで高品質な応答を増強し,複数の下流タスクにおいて競合的ベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2022-10-30T13:26:49Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data [61.71319905364992]
未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
論文 参考訳(メタデータ) (2020-09-20T13:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。