論文の概要: Optimizing Speech Language Models for Acoustic Consistency
- arxiv url: http://arxiv.org/abs/2509.26276v1
- Date: Tue, 30 Sep 2025 13:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.157981
- Title: Optimizing Speech Language Models for Acoustic Consistency
- Title(参考訳): 音響整合性を考慮した音声言語モデルの最適化
- Authors: Morteza Rohanian, Michael Krauthammer,
- Abstract要約: 我々は、0.7B音声のみのモデル、1.0B音声のみのモデル、1.0Bテキストと音声の両方のインターリーブモデルという3つのモデルを訓練する。
提案手法は,音声トークンを自己教師機能付きで初期化し,光アライメントロスを施し,薄型化と補助的目的を有する列車に適用する。
- 参考スコア(独自算出の注目度): 2.5864269455844484
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study speech language models that incorporate semantic initialization and planning losses to achieve robust and consistent generation. Our approach initializes speech tokens with self-supervised features, applies a light alignment loss, and trains with thinning and auxiliary objectives that target robustness and content planning. We train three models: a 0.7B speech-only model, a 1.0B speech-only model, and a 1.0B interleaved model with both text and speech. Acoustic studies show that the speech-only models achieve the highest consistency across speaker, gender, sentiment, room, and background factors, surpassing larger systems. Interleaving improves lexical and syntactic probes and semantic--acoustic alignment but reduces consistency. Linear probes show that our initialization biases the model toward content structure while trading off prosody detail. These results show that LM-side design and training mix control the balance between acoustic stability and semantic grounding without changes to the tokenizer or runtime architecture. A demo and model weights are available for exploration.
- Abstract(参考訳): 本研究では,意味的初期化と計画的損失を組み込んだ音声言語モデルについて検討し,頑健で一貫した生成を実現する。
提案手法は,音声トークンを自己教師機能付きで初期化し,光アライメントロスを適用し,ロバスト性やコンテンツプランニングを目標とした薄型化と補助目的の訓練を行う。
我々は、0.7B音声のみのモデル、1.0B音声のみのモデル、1.0Bテキストと音声の両方のインターリーブモデルという3つのモデルを訓練する。
音響研究では、音声のみのモデルが話者、性別、感情、部屋、背景要因の最も高い一貫性を達成し、より大きなシステムを上回ることが示されている。
インターリービングは語彙的および構文的プローブを改善し、意味論的アライメントを改善するが、一貫性を低下させる。
リニアプローブは、私たちの初期化が、韻律の詳細を取引しながら、コンテンツ構造に対するモデルに偏っていることを示している。
これらの結果から,LM側設計とトレーニングの混合により,トークンやランタイムアーキテクチャを変更することなく,音の安定性とセマンティックグラウンドのバランスを制御できることが示唆された。
デモとモデルウェイトが探索用に提供されている。
関連論文リスト
- Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture [0.0]
本稿では,ある音声音響に係わる舌と唇の調音特徴を予測するための新しい手法を提案する。
提案するネットワークは,同時記録音声とEMA(Electromagnetic Articulography)データセットの2つのデータセットで訓練されている。
論文 参考訳(メタデータ) (2025-04-25T05:57:22Z) - TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。
我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-09T17:14:33Z) - Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,Syllabicの埋め込みを自己教師なしのSyllabicセグメンテーションから抽出し,自己教師付き学習フレームワークを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 効率的な音声言語モデリングに適した新しい音韻単位,である。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Self-Supervised Models of Speech Infer Universal Articulatory Kinematics [44.27187669492598]
SSLモデルの基本特性として「調音キネマティクスの推論」を示す。
また、この抽象化は、モデルをトレーニングするために使用されるデータの言語に大きく重なり合っていることも示しています。
簡単なアフィン変換では、アコースティック・トゥ・アコースティック・トゥ・アーティキュレーション・インバージョン(AAI)は、性別、言語、方言でさえ話者間で変換可能であることを示す。
論文 参考訳(メタデータ) (2023-10-16T19:50:01Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。