論文の概要: Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tracking
- arxiv url: http://arxiv.org/abs/2511.22503v1
- Date: Thu, 27 Nov 2025 14:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.609047
- Title: Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tracking
- Title(参考訳): LLMに基づく音声対話状態追跡のための共同音声とテキストの訓練
- Authors: Katia Vendrame, Bolaji Yusuf, Santosh Kesiraju, Šimon Sedláček, Oldřich Plchot, Jan Černocký,
- Abstract要約: 音声入力とデータ不足を処理しなくてはならず、エンドツーエンドの音声対話状態追跡(DST)は困難である。
そこで本稿では,ドメイン間の一般化を実現する手段として,利用可能なDSTデータと,他のドメインからのテキストデータとの協調トレーニングを提案する。
- 参考スコア(独自算出の注目度): 3.3567998676631476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end spoken dialogue state tracking (DST) is made difficult by the tandem of having to handle speech input and data scarcity. Combining speech foundation encoders and large language models has been proposed in recent work as to alleviate some of this difficulty. Although this approach has been shown to result in strong spoken DST models, achieving state-of-the-art performance in realistic multi-turn DST, it struggles to generalize across domains and requires annotated spoken DST training data for each domain of interest. However, collecting such data for every target domain is both costly and difficult. Noting that textual DST data is more easily obtained for various domains, in this work, we propose jointly training on available spoken DST data and written textual data from other domains as a way to achieve cross-domain generalization. We conduct experiments which show the efficacy of our proposed method for getting good cross-domain DST performance without relying on spoken training data from the target domains.
- Abstract(参考訳): 音声入力とデータ不足を処理しなくてはならず、エンドツーエンドの音声対話状態追跡(DST)は困難である。
近年,言語基盤エンコーダと大規模言語モデルを組み合わせることで,この難しさを緩和する手法が提案されている。
この手法は, 実写マルチターンDSTにおいて, 高度な音声DSTモデルが実現されることが示されているが, 領域間の一般化に苦慮し, 興味のある領域毎に注釈付き音声DSTトレーニングデータを必要とする。
しかし、そのようなデータを対象のドメイン毎に収集することは費用がかかり難い。
そこで本研究では,テキストDSTデータと他のドメインからのテキストデータとの協調学習を,ドメイン間の一般化を実現する手段として提案する。
提案手法の有効性を示す実験を行い,対象ドメインからの音声学習データに頼ることなく,ドメイン間DSTの性能向上を図る。
関連論文リスト
- Text-Driven Causal Representation Learning for Source-Free Domain Generalization [82.75041792888274]
我々は、ソースフリー領域一般化設定に因果推論を統合する最初の方法であるTDCRLを提案する。
我々のアプローチは、堅牢でドメイン不変な特徴を達成するための明確で効果的なメカニズムを提供し、堅牢な一般化を保証する。
論文 参考訳(メタデータ) (2025-07-14T06:20:42Z) - Pushing the Limits of Zero-shot End-to-End Speech Translation [15.725310520335785]
データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害である。
ゼロショットSTの手法であるZeroSwotを導入し、ペアSTデータを使わずにモダリティギャップをブリッジする。
実験の結果,STデータを使わずにモダリティギャップを効果的に塞ぐことが可能であること,MuST-CとCoVoSTで得られた結果が本手法の優位性を示している。
論文 参考訳(メタデータ) (2024-02-16T03:06:37Z) - Semantic Parsing by Large Language Models for Intricate Updating
Strategies of Zero-Shot Dialogue State Tracking [25.286077416235784]
Zero-shot Dialogue State Tracking (DST)は、タスク指向対話の取得と注釈付けの課題に対処する。
我々は、ゼロショットDSTに複雑な更新戦略を導入するために、新しいインコンテキスト学習(ICL)手法であるParsingDSTを提案する。
提案手法は,強力なLarge Language Models(LLM)を活用してDSTタスクを再構築し,元の対話文を意味解析に翻訳する。
論文 参考訳(メタデータ) (2023-10-16T15:38:02Z) - UNO-DST: Leveraging Unlabelled Data in Zero-Shot Dialogue State Tracking [54.51316566989655]
従来のゼロショット対話状態追跡(DST)手法は、対象領域における非競合データを無視して、転送学習のみを適用した。
我々は,ゼロショットDSTを,ジョイントおよび自己学習手法による非ラベルデータを利用して,少数ショットDSTに変換する。
ゼロショットシナリオにおける汎用言語モデルに対する本手法の有効性を実証し、MultiWOZの全ドメインで平均的な共同ゴール精度を8%向上する。
論文 参考訳(メタデータ) (2023-10-16T15:16:16Z) - Topic-driven Distant Supervision Framework for Macro-level Discourse
Parsing [72.14449502499535]
テキストの内部修辞構造を解析する作業は、自然言語処理において難しい問題である。
近年のニューラルモデルの発展にもかかわらず、トレーニングのための大規模で高品質なコーパスの欠如は大きな障害となっている。
近年の研究では、遠方の監督を用いてこの制限を克服しようと試みている。
論文 参考訳(メタデータ) (2023-05-23T07:13:51Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - A Simple Baseline for Domain Adaptation in End to End ASR Systems Using
Synthetic Data [1.14219428942199]
エンドツーエンド音声認識モデルにおけるドメイン適応のための簡単なベースライン手法を提案する。
テキストのみのコーパスを単一話者テキスト音声(TTS)エンジンを用いて音声データに変換する。
単一話者合成TTSデータと最終密度層を結合した微調整が単語誤り率の合理的な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:07:38Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。