論文の概要: Flow-SLM: Joint Learning of Linguistic and Acoustic Information for Spoken Language Modeling
- arxiv url: http://arxiv.org/abs/2508.09350v1
- Date: Tue, 12 Aug 2025 21:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.697344
- Title: Flow-SLM: Joint Learning of Linguistic and Acoustic Information for Spoken Language Modeling
- Title(参考訳): Flow-SLM:音声言語モデリングのための言語情報と音響情報の融合学習
- Authors: Ju-Chieh Chou, Jiawei Zhou, Karen Livescu,
- Abstract要約: テキストレス音声言語モデル(英語: Textless Speech Language Model、SLM)は、テキストの監督に依存しない音声の生成モデルである。
本稿では,意味トークンと音響フレームの連続実数値表現を生成することで,言語情報と音響情報を共同でモデル化することを提案する。
- 参考スコア(独自算出の注目度): 23.374370061220763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textless spoken language models (SLMs) are generative models of speech that do not rely on text supervision. Most textless SLMs learn to predict the next semantic token, a discrete representation of linguistic content, and rely on a separate vocoder to add acoustic information to the generated speech. Such models have no access to acoustic context and no built-in control over acoustic details. In this work, we propose to jointly model linguistic and acoustic information by generating semantic tokens and a continuous real-valued representation of the acoustic frame. We use a flow-matching objective to predict the continuous vector conditioned on the semantic tokens. We study the design space of this approach and find that predicting multiple future semantic tokens helps preserve linguistic information. Our approach achieves comparable performance to existing models in terms of linguistic likelihood benchmarks, while providing better acoustic detail in prompted generation.
- Abstract(参考訳): テキストレス音声言語モデル(英語: Textless Speech Language Model、SLM)は、テキストの監督に依存しない音声の生成モデルである。
ほとんどのテキストレスSLMは、言語内容の離散的な表現である次のセマンティックトークンを予測することを学び、生成された音声に音響情報を加えるために別個のボコーダに依存する。
このようなモデルには、音響的コンテキストへのアクセスがなく、音響的詳細に対する制御が組み込まれていない。
本研究では,意味的トークンと音響フレームの連続的実数値表現を生成し,言語情報と音響情報を協調的にモデル化することを提案する。
セマンティックトークン上で条件付けられた連続ベクトルを予測するために,フローマッチングの目的を用いる。
提案手法の設計空間について検討し,将来的な意味トークンの予測が言語情報の保存に有効であることを示す。
提案手法は,既存のモデルと言語的近接性ベンチマークで同等の性能を達成し,誘導生成における音響的詳細性を向上する。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Wave to Syntax: Probing spoken language models for syntax [16.643072915927313]
音声言語の自己教師型および視覚的基盤モデルにおける構文の符号化に着目する。
我々は、構文がネットワークの中間層で最も顕著に捉えられ、より多くのパラメータを持つモデルでより明確に表現されていることを示す。
論文 参考訳(メタデータ) (2023-05-30T11:43:18Z) - Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic
Word Embeddings [19.195728241989702]
本稿では,トップダウン語彙知識を音響単語埋め込みの訓練手順に組み込んだマルチタスク学習モデルを提案する。
我々は3つの言語で実験を行い、語彙知識を取り入れることで、埋め込み空間の識別性が向上することを示した。
論文 参考訳(メタデータ) (2022-09-14T13:33:04Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。