論文の概要: Speech-Worthy Alignment for Japanese SpeechLLMs via Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2603.12565v1
- Date: Fri, 13 Mar 2026 01:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.841104
- Title: Speech-Worthy Alignment for Japanese SpeechLLMs via Direct Preference Optimization
- Title(参考訳): 直接選好最適化による日本語音声LLMの音声単語アライメント
- Authors: Mengjie Zhao, Lianbo Liu, Yusuke Fujita, Hao Shi, Yuan Gao, Roman Koshkin, Yui Sudo,
- Abstract要約: SpokenElyza は、ELYZA-tasks-100 から派生した日本語音声の聴力評価のベンチマークである。
そこで本稿では,日本語の音声LLMを適応するための好みに基づくアライメント手法を提案する。
- 参考スコア(独自算出の注目度): 33.53269135649944
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: SpeechLLMs typically combine ASR-trained encoders with text-based LLM backbones, leading them to inherit written-style output patterns unsuitable for text-to-speech synthesis. This mismatch is particularly pronounced in Japanese, where spoken and written registers differ substantially in politeness markers, sentence-final particles, and syntactic complexity. We propose a preference-based alignment approach to adapt Japanese SpeechLLMs for speech-worthy outputs: text that is concise, conversational, and readily synthesized as natural speech. To rigorously evaluate this task, we introduce SpokenElyza, a benchmark for Japanese speech-worthiness derived from ELYZA-tasks-100 with auditory verification by native experts. Experiments show that our approach achieves substantial improvement on SpokenElyza while largely preserving performance on the original written-style evaluation. We will release SpokenElyza to support future research on Japanese spoken dialog systems.
- Abstract(参考訳): SpeechLLM は典型的には ASR で訓練されたエンコーダとテキストベースの LLM バックボーンを組み合わせ、テキスト音声合成には適さない書き起こし形式の出力パターンを継承する。
このミスマッチは特に日本語で発音され、音声と文字のレジスタは、丁寧なマーカー、文末の粒子、構文上の複雑さで大きく異なる。
そこで本稿では,日本語の音声LLMを音声に適応させる,好みに基づくアライメント手法を提案する。
本研究では,この課題を徹底的に評価するために,ELYZA-tasks-100から派生した日本語音声の聴力評価指標であるSpkenElyzaを紹介する。
実験の結果,本手法はスポケネリザの大幅な改善を実現するとともに,オリジナルの書式評価の性能を保っていることがわかった。
日本語音声対話システムに関する今後の研究を支援するため,SpkenElyzaをリリースする。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation [4.314729314139958]
音声と韻律のラベルを与えられた音声と音声のペアにアノテートする方法を提案する。
音韻ラベリングにおける誤りの訂正に辞書事前知識を用いた復号方式を用いる。
提案手法を用いてアノテートしたラベルで訓練したTTSモデルにより合成された音声の自然性は,手動のアノテーションで訓練したモデルに匹敵することを示す。
論文 参考訳(メタデータ) (2025-06-09T11:10:24Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Accented Text-to-Speech Synthesis with a Conditional Variational Autoencoder [14.323313455208183]
本稿では,条件付き変分オートエンコーダに基づくアクセント付きテキスト音声合成のための新しいフレームワークを提案する。
選択された話者の声を合成し、任意のターゲットアクセントに変換することができる。
論文 参考訳(メタデータ) (2022-11-07T05:36:30Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。