論文の概要: Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets
- arxiv url: http://arxiv.org/abs/2508.15442v1
- Date: Thu, 21 Aug 2025 11:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.286323
- Title: Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets
- Title(参考訳): GFlowNetを用いた分布アライメントによるLMベースTSモデルにおける幻覚の緩和
- Authors: Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han,
- Abstract要約: LMベースのTSのためのGFlOwNet誘導分布AlignmenT(GOAT)を提案する。
GOATは大量のリソースや推論コストに頼ることなく幻覚を緩和する。
GOATは,挑戦的なテストケースにおいて50%以上の文字誤り率を減少させ,不確実性を最大58%低下させることを示した。
- 参考スコア(独自算出の注目度): 17.644091454735495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language Model (LM)-based Text-to-Speech (TTS) systems often generate hallucinated speech that deviates from input text. Existing mitigation strategies either demand excessive training resources or introduce significant inference latency. In this paper, we propose GFlOwNet-guided distribution AlignmenT (GOAT) for LM-based TTS, a post-training framework that mitigates hallucinations without relying on massive resources or inference cost. Specifically, we first conduct an uncertainty analysis, revealing a strong positive correlation between hallucination and model uncertainty. Based on this, we reformulate TTS generation as a trajectory flow optimization problem and introduce an enhanced Subtrajectory Balance objective together with a sharpened internal reward as target distribution. We further integrate reward temperature decay and learning rate optimization for stability and performance balance. Extensive experiments show that GOAT reduce over 50% character error rates on challenging test cases and lowering uncertainty by up to 58%, demonstrating its strong generalization ability and effectiveness.
- Abstract(参考訳): 言語モデル(LM)ベースのテキスト音声合成システム(TTS)は、しばしば入力テキストから逸脱する幻覚音声を生成する。
既存の緩和戦略は過剰なトレーニングリソースを要求するか、大きな推論遅延を導入するかのいずれかだ。
本稿では,大規模な資源や推論コストに頼ることなく幻覚を緩和する後学習フレームワークであるLM-based TTSのためのGFlOwNet-guided Distribution AlignmenT (GOAT)を提案する。
具体的には、まず不確実性分析を行い、幻覚とモデル不確実性との間に強い正の相関関係を明らかにする。
そこで本研究では,TTS生成をトラジェクトリフロー最適化問題として再構成し,トラジェクトリ・バランス目標を改良し,内部報酬を目標分布として強化する。
さらに、安定化と性能バランスのための報奨温度減衰と学習率最適化を統合する。
広範な実験により、GOATは挑戦的なテストケースにおいて50%以上の文字誤り率を減らし、不確実性を最大58%低下させ、その強力な一般化能力と有効性を示した。
関連論文リスト
- Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling [11.168336416219857]
既存の無限幅理論は、大きな学習率で不安定を予測し、安定した学習率で特徴学習を消滅させる。
この相違は,カタパルト効果などの有限幅現象によって完全に説明できないことを示す。
制御された分散状態下でのニューラルネットワークの動作はCE損失では有効であるが,MSE損失では不可能である。
論文 参考訳(メタデータ) (2025-05-28T15:40:48Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - VFScale: Intrinsic Reasoning through Verifier-Free Test-time Scalable Diffusion Model [7.250494262573953]
本稿では,VFScale(Verifier-free Test-time scalable Diffusion Model)を導入し,スケーラブルな本質的な推論を実現する。
モーゼとスドクの挑戦的推論タスクについて,VFScaleの学習目標とスケーラブルな推論手法の有効性を実証する。
特に、最大6ドルまでのMazeサイズでトレーニングされたVFScaleは、15ドル以上のMaze問題の88%を解決していますが、標準拡散モデルは完全に失敗します。
論文 参考訳(メタデータ) (2025-02-04T04:07:48Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。