論文の概要: Eliminating stability hallucinations in llm-based tts models via attention guidance
- arxiv url: http://arxiv.org/abs/2509.19852v1
- Date: Wed, 24 Sep 2025 07:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.725641
- Title: Eliminating stability hallucinations in llm-based tts models via attention guidance
- Title(参考訳): 注意誘導によるllm-based ttsモデルにおける安定性幻覚の除去
- Authors: ShiMing Wang, ZhiHao Du, Yang Xiang, TianYu Zhao, Han Zhao, Qian Chen, XianGang Li, HanJie Guo, ZhenHua Ling,
- Abstract要約: 本稿では,テキスト音声(TTS)モデルにおける安定性の幻覚の解消に注目する。
我々は,テキスト音声アライメントの品質を評価するためにビタビアルゴリズムを用いて,最適アライメントスコア(OAS)と呼ばれるメトリクスを提案した。
提案法は,CosyVoice2の安定性を負の効果を伴わずに効果的に抑制することができる。
- 参考スコア(独自算出の注目度): 54.69225348397135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on resolving stability hallucinations (e.g., repetitive or omitted speech) in LLM-based Text-to-Speech (TTS) models by improving and leveraging the attention mechanism. First, we analyzed the alignment mechanism between text tokens and speech tokens in LLMs. We then proposed a metric termed the Optimal Alignment Score (OAS), which employs the Viterbi algorithm to evaluate text-speech alignment quality. Subsequently, OAS was integrated into the training of CosyVoice2 to assist LLMs in learning continuous, stable alignment. Additionally, the pre-trained attention value is employed to guide the training of the student CosyVoice2 via chain-of-thought (CoT), which further reduces stability hallucinations in synthesized speech. Experiments on the Seed-TTS-Eval and CV3-Eval test sets demonstrate that the proposed methods can effectively reduce the stability hallucinations of CosyVoice2 without introducing additional negative effects. The appendix is available at https://wsmzzz.github.io/llm_attn.
- Abstract(参考訳): 本稿では,LLMに基づくテキスト音声(TTS)モデルにおける安定性の幻覚(例えば,反復音声や省略音声)の解消に着目し,注意機構の改善と活用を図る。
まず,LLMにおけるテキストトークンと音声トークンのアライメント機構を解析した。
そこで我々は,テキスト音声のアライメント品質を評価するためにビタビアルゴリズムを用いて,最適アライメントスコア(OAS)と呼ばれるメトリクスを提案した。
その後、OASはCosyVoice2のトレーニングに統合され、LLMの継続的な安定したアライメントの学習を支援した。
さらに、学習者のCosyVoice2の訓練をチェーン・オブ・シント(CoT)を介して指導するために、事前学習された注意値を用いて、合成音声における安定性の幻覚をさらに低減させる。
The Seed-TTS-Eval and CV3-Eval test set showed that the proposed method can effective reduce the stability hallucinations of CosyVoice2 without introduced additional negative effect。
付録はhttps://wsmzzz.github.io/llm_attn.comで入手できる。
関連論文リスト
- S2SBench: A Benchmark for Quantifying Intelligence Degradation in Speech-to-Speech Large Language Models [14.060679420379516]
エンドツーエンドの音声大言語モデル(LLM)は、音声トークンを直接処理し、生成するテキストベースモデルの能力を拡張している。
これはしばしばテキスト入力と比較して推論と生成性能が低下する。
音声LLMの性能劣化を定量化するベンチマークであるS2SBenchを提案する。
論文 参考訳(メタデータ) (2025-05-20T14:42:20Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Improved Beam Search for Hallucination Mitigation in Abstractive
Summarization [1.2328446298523066]
本稿では,要約生成における幻覚の検出と防止を目的とした自然言語推論(NLI)の指標について検討する。
本研究では,入力コンテキストと要約モデル生成ビーム間の包含確率スコアを計算し,NLIを用いたビーム再ランク付け機構を提案する。
提案アルゴリズムは,XSumおよびCNN/DMデータセット上でバニラビームデコーディングを著しく上回っている。
論文 参考訳(メタデータ) (2022-12-06T02:33:47Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。