論文の概要: DRIVE: Disfluency-Rich Synthetic Dialog Data Generation Framework for Intelligent Vehicle Environments
- arxiv url: http://arxiv.org/abs/2507.19867v1
- Date: Sat, 26 Jul 2025 08:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.292602
- Title: DRIVE: Disfluency-Rich Synthetic Dialog Data Generation Framework for Intelligent Vehicle Environments
- Title(参考訳): DRIVE: インテリジェント自動車環境のための分散リッチ合成ダイアログデータ生成フレームワーク
- Authors: Anshul Chavda, M Jagadeesh, Chintalapalli Raja Kullayappa, B Jayaprakash, Medchalimi Sruthi, Pushpak Bhattacharyya,
- Abstract要約: 7つの自動車ドメインにまたがる3500個のマルチターンダイアログの合成コーパスであるDiscoDriveを紹介する。
本研究では,DialoGPT-Medium と T5-Base が KVRET 学習モデルと一致するか,あるいは超えられるように,DiscoDrive がトレーニングリソースとして有効であることを示す。
人間の評価では、DiscoDriveからサンプリングされたダイアログは、自然性とコヒーレンスにおけるKVRETの人間によるダイアログよりも高く評価されている。
- 参考スコア(独自算出の注目度): 29.444855969559153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-car conversational AI is becoming increasingly critical as autonomous vehicles and smart assistants gain widespread adoption. Yet, existing datasets fail to capture the spontaneous disfluencies such as hesitations, false starts, repetitions, and self-corrections that characterize real driver-AI dialogs. To address this, we introduce DiscoDrive, a synthetic corpus of 3500 multi-turn dialogs across seven automotive domains, generated using a two-stage, prompt-driven pipeline that dynamically integrates disfluencies during synthesis. We show that DiscoDrive is effective both as a training resource, enabling DialoGPT-Medium and T5-Base to match or exceed KVRET-trained models on the MultiWOZ 2.2 and Schema-Guided Dialogue (SGD) relevant test sets (BLEU-4 improvements of 0.26 to 0.61; METEOR +2.10; ROUGE-L +3.48; BERTScore F1 improvements of 1.35 to 3.48), and as a data augmentation resource in low-resource scenarios, delivering additional gains of up to BLEU-4 +0.38, METEOR +1.95, ROUGE-L +2.87, and BERTScore F1 +4.00 when combined with 10 percent of KVRET. Human evaluations further confirm that dialogs sampled from DiscoDrive are rated higher than KVRET's human-collected dialogs in naturalness (3.8 vs 3.6) and coherence (4.1 vs 4.0), and are perceived as more context-appropriate than leading post-hoc methods (such as LARD), without compromising clarity. DiscoDrive fills a critical gap in existing resources and serves as a versatile corpus for both training and augmenting conversational AI, enabling robust handling of real-world, disfluent in-car interactions.
- Abstract(参考訳): 自動運転車やスマートアシスタントが広く普及するにつれて、車内会話型AIはますます重要になりつつある。
しかし、既存のデータセットは、実際のドライバとAIのダイアログを特徴付ける、ためらう、偽スタート、繰り返し、自己補正といった自然的障害をキャプチャすることができない。
これを解決するために,2段階のプロンプト駆動パイプラインを用いて生成され,合成中の分散を動的に統合する,自動車ドメイン間の3500のマルチターンダイアログの合成コーパスであるDiscoDriveを紹介した。
トレーニングリソースとしてDialoGPT-MediumとT5-Baseが、MultiWOZ 2.2とSchema-Guided Dialogue(SGD)関連テストセット(BLEU-4の改善は0.26から0.61、METEOR +2.10、ROUGE-L +3.48、BERTScore F1の改善は1.35から3.48)と、低リソースシナリオにおけるデータ拡張リソースとして有効であり、BLEU-4+0.38、METEOR +1.95、ROUGE-L +2.87、BERTScore F1+4.00とKVRETの10%が組み合わされた場合に、KVRETのトレーニングモデルにマッチまたは超えることを示す。
人間の評価により、DiscoDriveからサンプリングされたダイアログは、自然度(3.8対3.6)とコヒーレンス(4.1対4.0)においてKVRETの人間によるダイアログよりも高く評価され、明瞭さを損なうことなく、主要なポストホックメソッド(LARDなど)よりもコンテキストに適合していると見なされる。
DiscoDriveは、既存のリソースにおける重要なギャップを埋め、トレーニングと会話型AIの強化のための多目的コーパスとして機能し、現実世界と車内インタラクションの堅牢なハンドリングを可能にする。
関連論文リスト
- MMCR: Advancing Visual Language Model in Multimodal Multi-Turn Contextual Reasoning [59.01443478716538]
マルチモーダルマルチターンコンテキスト推論データセットは、310Kコンテキスト対話を備えた最大マルチモーダルマルチターンインストラクションチューニングデータセットである。
MMCR-310kで微調整されたモデルは、MMCR-Benchの文脈精度が5.2%向上する。
論文 参考訳(メタデータ) (2025-03-24T10:40:33Z) - Zero-shot Slot Filling in the Age of LLMs for Dialogue Systems [0.0]
本稿ではスロット誘導とブラックボックスの知識蒸留による自動データアノテーションの戦略を提案する。
コールセンター製品設定のための効率的なシステムアーキテクチャを導入し、市販の抽出モデルを34%の相対的なF1スコアで上回ります。
論文 参考訳(メタデータ) (2024-11-28T08:02:25Z) - An Unsupervised Dialogue Topic Segmentation Model Based on Utterance Rewriting [3.5399864027190366]
本研究では,Utterance Rewriting(UR)技術と教師なし学習アルゴリズムを組み合わせた,教師なし対話トピックセグメンテーション手法を提案する。
The proposed Discourse Rewriting Topic Model (UR-DTS) is significantly improves the accuracy of topic segmentation。
論文 参考訳(メタデータ) (2024-09-12T00:27:31Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic
Speech Recognition [19.475314134504504]
本稿では,CLC: Contrastive Learning for Conversationsを紹介する。
我々は,音声タスク指向対話の大規模半合成メタデータセットであるOD3上でのASRモデルの性能向上をLCCファミリーで実証した。
これらの成果は実世界のシステムにもたらされ、CLCがベースラインを最大6.7%上回るパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-01-04T18:59:31Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - LAD: Language Models as Data for Zero-Shot Dialog [9.960608453889224]
言語モデル・アズ・データ(Language Models as Data、LAD)は、多種多様な正確な合成データを作成するためのパラダイムである。
LADは、下流のニューラルダイアログモデルをトレーニングするために使用することができる。
LADは意図予測のゼロショット設定で大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-07-28T22:10:45Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。