論文の概要: STREAM: A Data-Centric Framework for Mining High-Value Task-Oriented Dialogues from Streaming Media
- arxiv url: http://arxiv.org/abs/2605.25162v1
- Date: Sun, 24 May 2026 16:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.925526
- Title: STREAM: A Data-Centric Framework for Mining High-Value Task-Oriented Dialogues from Streaming Media
- Title(参考訳): STREAM: ストリーミングメディアから高価値タスク指向対話をマイニングするためのデータ中心フレームワーク
- Authors: Liang Xue, Haoyu Liu, Cheng Wang, Pengyu Chen, Haozhuo Zheng, Yang Liu,
- Abstract要約: 大規模に高価値なサービス対話を合成するデータ中心のフレームワークであるStreamを提案する。
ストリームマイニングはノイズの多いストリームからの真のインタラクション信号を抽出し、ロールグラウンドのペルソナ構造を統合することで会話を合成する。
Streamをベースに、Automotive、Restaurant、Hotelをカバーする大規模なデータセットであるStreamDialをリリースしています。
- 参考スコア(独自算出の注目度): 20.15263583458415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models for vertical domains are bottlenecked by the scarcity of complex, domain-specific task-oriented dialogues. Existing data acquisition pipelines face a persistent trilemma: expert annotation is expensive, real-world service conversations are constrained by privacy and commercial restrictions, and static corpora quickly become temporally stale. We propose Stream, a data-centric framework that leverages publicly available streaming media (live streams and short videos) to synthesize high-value service dialogues at scale. Stream mines authentic interaction signals from noisy streams and synthesizes conversations by integrating role-grounded persona construction with Conversational Blueprint construction; it further adopts retrieval-augmented generation (RAG) to support knowledge-aware responses. Based on Stream, we release StreamDial, a large-scale multi-domain dataset covering Automotive, Restaurant, and Hotel. StreamDial contains 87,498 dialogue sessions and 1,497,320 turns in total, with an average of 17.11 turns per session and a comparable scale across domains. Each session is organized as a structured quadruplet $\langle P_u, P_a, B, H \rangle$ that pairs dialogue history with explicit user/agent personas and a Conversational Blueprint, capturing realistic service behaviors such as requirement mining, constraint conflicts, negotiation, and recovery. Evaluations with automatic judges and downstream tasks show that StreamDial improves intrinsic dialogue quality over strong baselines, and models trained with StreamDial improve Dialogue State Tracking across backbones; we further report a completed human-evaluation set and encouraging multilingual transfer on Qwen3-8B under a controlled training budget. The data is released in https://github.com/hitxueliang/DialogDataSetBySTREAM.
- Abstract(参考訳): 垂直ドメインのための大規模言語モデルは、複雑なドメイン固有のタスク指向対話の不足によってボトルネックとなる。
エキスパートアノテーションは高価で、現実のサービス会話はプライバシと商業的制約によって制約され、静的コーパスはすぐに時間的に不安定になる。
公開ストリーム(ライブストリームとショートビデオ)を活用して,大規模に高価値なサービス対話を合成する,データ中心のフレームワークであるStreamを提案する。
ストリームマイニングは,対話型ブループリント構築とロールグラウンドのペルソナ構築を統合することで,ノイズの多いストリームからの真のインタラクション信号を合成する。
Streamをベースに、Automotive、Restaurant、Hotelをカバーする大規模なマルチドメインデータセットであるStreamDialをリリースしました。
StreamDialには87,498の対話セッションと1,497,320のターンがあり、セッションごとの平均17.11回、ドメイン間でのスケールに匹敵する。
各セッションは構造化された四つ組の$\langle P_u, P_a, B, H \rangle$として構成され、対話履歴と明示的なユーザ/エージェントのペルソナと会話のブループリントをペアリングし、要求マイニング、制約競合、交渉、リカバリといった現実的なサービス動作をキャプチャする。
自動判断とダウンストリームタスクを用いた評価では,StreamDialは強力なベースラインよりも本質的な対話品質を向上し,StreamDialで訓練されたモデルでは,バックボーン間の対話状態追跡が向上し,さらに人的評価セットが完成し,Qwen3-8B上での多言語移動が促進されることが示された。
データはhttps://github.com/hitxueliang/DialogDataSetBySTREAMで公開されている。
関連論文リスト
- SpokenUS: A Spoken User Simulator for Task-Oriented Dialogue [11.90483692004643]
我々は,52,390対話と1,034時間音声を4つの音声ユーザ行動で拡張した音声TODデータセットであるtextbfSpokenTODを紹介した。
ToDをベースとした音声シミュレータ textbfSpokenus を,バージイン専用のアーキテクチャで提案する。
論文 参考訳(メタデータ) (2026-03-17T16:58:47Z) - ChatUMM: Robust Context Tracking for Conversational Interleaved Generation [44.19929499646892]
統一マルチモーダルモデル(UMM)は目覚ましい進歩を遂げているが、シングルターン相互作用パラダイムによって制約されている。
本稿では,対話型統合モデルChatUMMを提案する。
ChatUMMは、連続的な会話の流れとしてシリアライズされたテキストイメージストリームをモデル化するインターリーブされたマルチターントレーニング戦略に由来する。
論文 参考訳(メタデータ) (2026-02-06T07:11:50Z) - Proactive Assistant Dialogue Generation from Streaming Egocentric Videos [48.30863954384779]
この研究は、多様なタスクを通じてユーザーを誘導できるリアルタイムでプロアクティブなAIアシスタントを開発するための基礎を築いた。
まず,注釈付きエゴセントリックビデオから対話を合成する新しいデータキュレーションパイプラインを提案する。
第2に、広範囲な人間の研究を通して検証された自動評価指標のスイートを開発する。
第3に,ストリーミングビデオ入力を処理し,文脈的に適切な応答を生成するエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:23:29Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Re$^3$Dial: Retrieve, Reorganize and Rescale Dialogue Corpus for
Long-Turn Open-Domain Dialogue Pre-training [90.3412708846419]
既存の事前学習コーパスのほとんどの対話は、3回未満の対話を含む。
数十億ドル規模のロングターン対話を自動的に構築するRetrieve, Reorganize, Rescale framework (Re$3$Dial)を提案する。
上記のプロセスを繰り返すことで、Re$3$Dialはコヒーレントなロングターン対話をもたらすことができる。
論文 参考訳(メタデータ) (2023-05-04T07:28:23Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。