論文の概要: On the Cost and Benefits of Training Context with Utterance or Full Conversation Training: A Comparative Stud
- arxiv url: http://arxiv.org/abs/2505.07202v1
- Date: Mon, 12 May 2025 03:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.250574
- Title: On the Cost and Benefits of Training Context with Utterance or Full Conversation Training: A Comparative Stud
- Title(参考訳): 発話・全会話学習における学習コンテキストのコストと便益について:比較スタッドを用いて
- Authors: Hyouin Liu, Zhikuan Zhang,
- Abstract要約: 本稿では,会話の文脈に関する顕著なモデルとその基盤となる行動について考察する。
我々は,文脈に基づく発話レベル学習と会話の完全学習の2つのアプローチを実証的に検討した。
その結果、文脈に基づく発話訓練は、優れたMOSスコアを達成し、トレーニング時間を37%短縮することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern TTS systems designed for conversations achieve high-quality utterances but often remain inaccessible publicly. Are existing open-source architectures inadequate, or are current training techniques insufficient? This paper investigates prominent models and their underlying behaviors regarding conversational context. Using 20 GPU-hours on an NVIDIA H100, we empirically examine two approaches: context-based utterance-level training versus full conversation training. Results demonstrate that context-based utterance training achieves superior MOS scores (4.3/5.0 vs 3.7/5.0) and reduces training time by 37%, while full conversation approaches suffer from speaker similarity hallucination issues. These findings provide practical guidelines for conversational TTS development, favoring utterance-level training with contextual conditioning for both resource efficiency and output quality.
- Abstract(参考訳): 会話用に設計された現代のTSシステムは高品質な発話を実現するが、しばしば一般にはアクセスできない。
既存のオープンソースアーキテクチャは不十分なのか、それとも現在のトレーニングテクニックが不十分なのか?
本稿では,会話の文脈に関する顕著なモデルとその基盤となる行動について考察する。
NVIDIA H100上で20GPU時間を使用して、コンテキストベースの発話レベルトレーニングと完全な会話トレーニングの2つのアプローチを実証的に検討した。
その結果、文脈に基づく発話訓練は、優れたMOSスコア(4.3/5.0対3.7/5.0)を達成し、トレーニング時間を37%削減し、完全な会話アプローチは話者類似性幻覚の問題に悩まされることを示した。
これらの知見は,資源効率と出力品質の両面において,文脈条件付き発話レベルの訓練を優先して,会話型TTS開発のための実践的ガイドラインを提供する。
関連論文リスト
- Context Retrieval via Normalized Contextual Latent Interaction for
Conversational Agent [3.9635467316436133]
本稿では,会話応答の質を向上させるために,関連情報を正確かつ効率的に識別できる新しい手法であるPK-NCLIを提案する。
実験の結果, PK-NCLIは, 難易度, 知識基盤, 訓練効率において, 最先端のPK-FoCuよりも優れていた。
論文 参考訳(メタデータ) (2023-12-01T18:53:51Z) - Context Consistency between Training and Testing in Simultaneous Machine
Translation [46.38890241793453]
同時機械翻訳(SiMT)は、ソース側コンテキストを単調に拡張したリアルタイム部分翻訳を実現することを目的としている。
トレーニングとテストの間のコンテキスト使用に関して、直感的な現象があります。
そこで我々は,文脈整合性学習と呼ばれる効果的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T04:11:32Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - A Multi-task Multi-stage Transitional Training Framework for Neural Chat
Translation [84.59697583372888]
ニューラルチャット翻訳(NCT)は、異なる言語の話者間の言語間チャットを翻訳することを目的としている。
既存の文脈対応NMTモデルは、注釈付きバイリンガル対話のリソースが限られているため、満足な性能を達成できない。
NCTモデルをバイリンガルチャット翻訳データセットと追加の単言語対話を用いて訓練するマルチタスク・マルチステージ・トランザクショナル(MMT)トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-27T14:41:16Z) - TANet: Thread-Aware Pretraining for Abstractive Conversational
Summarization [27.185068253347257]
我々はRedditコミュニティの複数人による議論に基づいて,RCSと呼ばれる大規模(11M)事前学習データセットを構築した。
次に、スレッド対応のTransformerベースのネットワークであるTANetを紹介する。
会話を文の列として扱う既存の事前学習モデルとは異なり、本質的な文脈依存は会話全体を理解する上で重要な役割を担っていると論じる。
論文 参考訳(メタデータ) (2022-04-09T16:08:46Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。