論文の概要: The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach
- arxiv url: http://arxiv.org/abs/2510.09424v1
- Date: Fri, 10 Oct 2025 14:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.209039
- Title: The Speech-LLM Takes It All: A Truly Fully End-to-End Spoken Dialogue State Tracking Approach
- Title(参考訳): Speech-LLM:完全なエンドツーエンドの音声対話状態追跡アプローチ
- Authors: Nizar El Ghazal, Antoine Caubrière, Valentin Vielzeuf,
- Abstract要約: 従来のマルチモーダルコンテキスト(テキスト履歴と音声の現在方向の組み合わせ)、フル音声履歴、圧縮音声履歴アプローチを評価した。
SpokenWOZコーパスの実験では、入力として完全な会話を提供することで、類似サイズのモデルの中で最高のパフォーマンスが得られることが示された。
- 参考スコア(独自算出の注目度): 0.7095058159492491
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a comparative study of context management strategies for end-to-end Spoken Dialog State Tracking using Speech-LLMs. We systematically evaluate traditional multimodal context (combining text history and spoken current turn), full spoken history, and compressed spoken history approaches. Our experiments on the SpokenWOZ corpus demonstrate that providing the full spoken conversation as input yields the highest performance among models of similar size, significantly surpassing prior methods. Furthermore, we show that attention-pooling-based compression of the spoken history offers a strong trade-off, maintaining competitive accuracy with reduced context size. Detailed analysis confirms that improvements stem from more effective context utilization.
- Abstract(参考訳): 本稿では,音声LLMを用いたエンドツーエンドの音声対話状態追跡のためのコンテキスト管理手法の比較検討を行う。
従来のマルチモーダルコンテキスト(テキスト履歴と音声の現在方向の組み合わせ)、フル音声履歴、圧縮音声履歴アプローチを体系的に評価した。
SpokenWOZコーパスを用いた実験により, 音声対話を入力として提供すると, 従来手法をはるかに上回り, 類似サイズのモデルの中で最も高い性能が得られることが示された。
さらに,発話履歴のアテンションプーリングに基づく圧縮は強いトレードオフをもたらし,文脈サイズを小さくして競合精度を維持することを示す。
詳細な分析により、改善はより効果的な文脈利用に起因することが確認される。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction [50.630431647192054]
本稿では,ターゲット音声抽出(TSE)の新しい手法について検討する。
対象の音声を抽出するためには、テキストの文脈にのみ依存する。
3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
論文 参考訳(メタデータ) (2025-03-11T18:26:10Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - Precognition in Task-oriented Dialogue Understanding: Posterior
Regularization by Future Context [8.59600111891194]
本稿では,後続正則化手法を用いて,歴史的・将来の情報を共同でモデル化することを提案する。
これらの間のKL距離を最適化し、トレーニング中にモデルを正規化します。
2つの対話データセットの実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-03-07T09:58:50Z) - Conversational speech recognition leveraging effective fusion methods
for cross-utterance language modeling [12.153618111267514]
音声認識における言語モデリングのための異種会話履歴融合手法を提案する。
現在の発話の音響埋め込みとそれに対応する会話履歴のセマンティックコンテンツとを融合して利用する新しい音声融合機構が導入された。
我々は,ASR N-best仮説再構成タスクを予測問題として,象徴的な事前学習型LMであるBERTを活用する。
論文 参考訳(メタデータ) (2021-11-05T09:07:23Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。