論文の概要: Proactive Dialogue Model with Intent Prediction
- arxiv url: http://arxiv.org/abs/2604.27379v1
- Date: Thu, 30 Apr 2026 03:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.9104
- Title: Proactive Dialogue Model with Intent Prediction
- Title(参考訳): 入力予測を伴う韻律対話モデル
- Authors: Yang Luo,
- Abstract要約: 本稿では,対話データから導出され,推論時にシステムプロンプトに注入される軽量なインテント・トランジションについて紹介する。
我々は、MultiWOZ 2.2におけるターン毎のインテントアノテーションを訓練したテンポラルベイズネットワーク(T-BN)を用いて、この前をインスタンス化する。
200回以上の対話において、BN誘導世代はカバレッジAUCを0.742から0.856に改善し、75%の意図的カバレッジを3.95から2.73に到達させるために必要なターン数を減少させる。
- 参考スコア(独自算出の注目度): 16.47519576020766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue models are inherently reactive, responding to the current user turn without anticipating upcoming intents, which leads to redundant interactions in multi-intent settings. We address this limitation by introducing a lightweight intent-transition prior derived from dialogue data and injected into the system prompt at inference time. We instantiate this prior using a Temporal Bayesian Network (T-BN) trained on per-turn intent annotations in MultiWOZ 2.2. The T-BN achieves Recall@5 = 0.787 and MRR = 0.576 on 1,071 held-out USER-turn pairs. In a ground-truth replay over 200 dialogues, BN-guided generation improves Coverage AUC from 0.742 to 0.856 and reduces the number of turns required to reach 75% intent coverage from 3.95 to 2.73. These results show that lightweight intent-transition guidance enables more proactive and efficient dialogue behavior without modifying the underlying language model.
- Abstract(参考訳): 対話モデルは本質的にリアクティブであり、今後の意図を予測せずに現在のユーザターンに応答する。
本稿では,対話データから導出され,推論時にシステムプロンプトに注入される軽量なインテント・トランジションを導入することで,この制限に対処する。
我々は、MultiWOZ 2.2におけるターン毎のインテントアノテーションを訓練したテンポラルベイズネットワーク(T-BN)を用いて、この前をインスタンス化する。
T-BN は Recall@5 = 0.787 と MRR = 0.576 を達成する。
200回以上の対話において、BN誘導世代はカバレッジAUCを0.742から0.856に改善し、75%の意図的カバレッジを3.95から2.73まで減少させる。
これらの結果から,軽量なインテント・トランジション・ガイダンスは,基礎となる言語モデルを変更することなく,より能動的かつ効率的な対話行動を可能にすることが示唆された。
関連論文リスト
- ASPIRin: Action Space Projection for Interactivity-Optimized Reinforcement Learning in Full-Duplex Speech Language Models [49.18708573170585]
経験的な評価は、ASPIRinがターンテイキング、バックチャネル、一時停止処理をまたいで対話性を最適化していることを示している。
ASPIRin degrade turn to say when when when to fall when. ASPIRin degrade turn to say when when to say。
論文 参考訳(メタデータ) (2026-04-11T07:07:08Z) - DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining [3.3842793760651557]
音声合成モデルはターンテイキングを自然に扱うが、ツールコールや複雑な推論を限定的にサポートする。
本稿では、このギャップを2チャンネルの会話音声における生成前訓練によって狭めるDualTurnを提案する。
このモデルは、両方の話者の将来の音声を自動回帰的に生成し、ラベルなしで暗黙的に会話のダイナミクスを学習し、解釈可能なターンテイク信号を予測するように微調整される。
論文 参考訳(メタデータ) (2026-03-09T10:48:37Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - Can Speech LLMs Think while Listening? [34.188674303810394]
CoT(Chain-of- Thought)はテキストベース音声モデルの推論能力を大幅に向上させることが示されている。
そこで本研究では,テキスト空間における推論により,音声のLLMの精度が平均2.4倍向上することを示す。
ユーザクエリが終了する前に,モデルが推論を開始できるようにすることで,推論から追加のレイテンシを低減する手法を提案する。
論文 参考訳(メタデータ) (2025-10-08T19:50:58Z) - ConsistentChat: Building Skeleton-Guided Consistent Multi-Turn Dialogues for Large Language Models from Scratch [79.12929103519922]
Skeleton-Guided Multi-Turn Dialogue Generationは、人間の意図を明示的にモデル化することで、マルチターン命令合成を制約する。
約15,000のマルチターン会話と224,392の発話を持つマルチターン命令データセットであるConsistentChatを構築した。
Light, Topdial, MT-Evalベンチマークの実験では、ConsistentChatで微調整されたモデルでは、チャットの一貫性が20~30%向上し、タスクの成功率が15%向上している。
論文 参考訳(メタデータ) (2025-06-04T04:21:48Z) - Building the Intent Landscape of Real-World Conversational Corpora with
Extractive Question-Answering Transformers [0.0]
実世界の対話から意図や意図の分類を抽出する教師なしパイプラインを提案する。
本研究は,SQuAD2データセット上に微調整されたELECTRA大モデルによる対話理解の一般化能力を示すものである。
論文 参考訳(メタデータ) (2022-08-26T22:53:19Z) - Improved Goal Oriented Dialogue via Utterance Generation and Look Ahead [5.062869359266078]
ディープテキスト・トゥ・テキスト・ニューラルモデルをトレーニングし、ラベルなし対話データから連続したユーザ発話を生成することにより、インテント予測を改善することができる。
本稿では,ユーザの発話生成を用いて意図予測を時間内に改善する新しいルックアヘッド手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:12:48Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z) - Modeling Long Context for Task-Oriented Dialogue State Generation [51.044300192906995]
本稿では,シンプルで効果的な発話タグ付け手法と双方向言語モデルを用いたマルチタスク学習モデルを提案する。
提案手法は,入力対話コンテキストシーケンスが長い場合に,ベースラインの性能が著しく低下する,という問題を解決する。
本実験では,MultiWOZ 2.0データセットにおいて,ベースラインに対して7.03%の相対的改善を実現し,新しい最先端のジョイントゴール精度を52.04%に設定した。
論文 参考訳(メタデータ) (2020-04-29T11:02:25Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。