論文の概要: Bridging What the Model Thinks and How It Speaks: Self-Aware Speech Language Models for Expressive Speech Generation
- arxiv url: http://arxiv.org/abs/2604.11424v1
- Date: Mon, 13 Apr 2026 13:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.551827
- Title: Bridging What the Model Thinks and How It Speaks: Self-Aware Speech Language Models for Expressive Speech Generation
- Title(参考訳): モデルがどう考えるか、どのように話すか:表現型音声生成のための自己認識音声モデル
- Authors: Kuang Wang, Lai Wei, Qibing Bai, Ping Lin, Wenkai Fang, Feng Jiang, Zhongjie Jiang, Jun Huang, Yannan Wang, Haizhou Li,
- Abstract要約: 音声言語モデル(SLM)は、強い意味理解を示すが、その生成した音声は、しばしば平らに聞こえ、表現的意図を伝えることができず、ユーザのエンゲージメントを損なう。
このミスマッチを意味的理解と音響的実現のギャップと呼ぶ。
本研究では,SA-SLM (Self-Aware Speech Language Model) を提案する。
- 参考スコア(独自算出の注目度): 34.357436199397604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Language Models (SLMs) exhibit strong semantic understanding, yet their generated speech often sounds flat and fails to convey expressive intent, undermining user engagement. We term this mismatch the semantic understanding-acoustic realization gap. We attribute this gap to two key deficiencies: (1) intent transmission failure, where SLMs fail to provide the stable utterance-level intent needed for expressive delivery; and (2) realization-unaware training, where no feedback signal verifies whether acoustic outputs faithfully reflect intended expression. To address these issues, we propose SA-SLM (Self-Aware Speech Language Model), built on the principle that the model should be aware of what it thinks during generation and how it speaks during training. SA-SLM addresses this gap through two core contributions: (1) Intent-Aware Bridging, which uses a Variational Information Bottleneck (VIB) objective to translate the model's internal semantics into temporally smooth expressive intent, making speech generation aware of what the model intends to express; and (2) Realization-Aware Alignment, which repurposes the model as its own critic to verify and align acoustic realization with intended expressive intent via rubric-based feedback. Trained on only 800 hours of expressive speech data, our 3B parameter SA-SLM surpasses all open-source baselines and comes within 0.08 points of GPT-4o-Audio in overall expressiveness on the EchoMind benchmark.
- Abstract(参考訳): 音声言語モデル(SLM)は、強い意味理解を示すが、その生成した音声は、しばしば平らに聞こえ、表現的な意図を伝えることができず、ユーザのエンゲージメントを損なう。
このミスマッチを意味的理解と音響的実現のギャップと呼ぶ。
このギャップは,(1) 意図伝達障害,(1) SLM が表現的伝達に必要な安定した発話レベル意図を提供できないこと,(2) 音響出力が意図した表現を忠実に反映しているかどうかを判断するフィードバック信号が存在しないこと,の2つの主要な欠陥に起因している。
これらの問題に対処するため,SA-SLM (Self-Aware Speech Language Model) を提案する。
SA-SLMは,モデルの内部意味を時間的にスムーズな表現意図に翻訳するインテント・アウェア・ブリジング (VIB) と,モデルが表現することの意図を認識させること,および,モデルを独自の批評家として再利用し,ルーリックベースのフィードバックを通じて意図した表現意図で音響的実現を検証・調整するリアライゼーション・アライメント (Realization-Aware Alignment) という2つのコアコントリビューションを通じて,このギャップに対処する。
3BパラメータSA-SLMは、わずか800時間の表現的音声データに基づいて訓練され、すべてのオープンソースベースラインを超え、EchoMindベンチマークの全体的な表現性において、GPT-4o-Audioの0.08ポイント以内である。
関連論文リスト
- DiffuSpeech: Silent Thought, Spoken Answer via Unified Speech-Text Diffusion [23.01044837428522]
我々は、音声LLMが音声応答とともに内部テキスト推論を生成するパラダイムであるtextbfSilent Thought, Spoken Answer'を紹介する。
本稿では,理解と生成の両方をサポートする最初の拡散型音声テキスト言語モデルを提案する。
実験の結果,最先端の音声合成QAの精度を最大9ポイント向上させることができた。
論文 参考訳(メタデータ) (2026-01-30T12:08:33Z) - Optimizing Speech Language Models for Acoustic Consistency [2.5864269455844484]
我々は、0.7B音声のみのモデル、1.0B音声のみのモデル、1.0Bテキストと音声の両方のインターリーブモデルという3つのモデルを訓練する。
提案手法は,音声トークンを自己教師機能付きで初期化し,光アライメントロスを施し,薄型化と補助的目的を有する列車に適用する。
論文 参考訳(メタデータ) (2025-09-30T13:59:52Z) - S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information [47.950757976473035]
パラ言語情報を用いた命令追従機能の評価を行う,新しいアリーナスタイルのS2SベンチマークであるS2S-Arenaを紹介する。
GPT-4oの優れた性能に加えて、カスケードされたASR, LLM, TTSの音声モデルは、音声2音声プロトコルにおけるテキスト・音声アライメント後に共同訓練されたモデルよりも優れる。
論文 参考訳(メタデータ) (2025-03-07T02:07:00Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Improving the Gap in Visual Speech Recognition Between Normal and Silent
Speech Based on Metric Learning [11.50011780498048]
本稿では,視覚音声認識(VSR)における正常音声と無声音声のパフォーマンスギャップに対処する新しい距離学習手法を提案する。
本稿では,通常の音声とサイレント音声の共有リテラルコンテンツを活用し,ビセムに基づく計量学習手法を提案する。
本手法は,限られた訓練データであってもサイレントVSRの精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T16:20:46Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。