論文の概要: Llama-Mimi: Speech Language Models with Interleaved Semantic and Acoustic Tokens
- arxiv url: http://arxiv.org/abs/2509.14882v1
- Date: Thu, 18 Sep 2025 12:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.199273
- Title: Llama-Mimi: Speech Language Models with Interleaved Semantic and Acoustic Tokens
- Title(参考訳): Llama-Mimi:インターリーブ・セマンティック・アコースティック・トークンを用いた言語モデル
- Authors: Issa Sugiura, Shuhei Kurita, Yusuke Oda, Ryuichiro Higashinaka,
- Abstract要約: Llama-Mimiは、統一トークン化器と単一トランスフォーマーデコーダを使用する言語モデルである。
総合評価は,Llama-Mimiが音の整合性において最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 14.66109161130445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Llama-Mimi, a speech language model that uses a unified tokenizer and a single Transformer decoder to jointly model sequences of interleaved semantic and acoustic tokens. Comprehensive evaluation shows that Llama-Mimi achieves state-of-the-art performance in acoustic consistency and possesses the ability to preserve speaker identity. Our analysis further demonstrates that increasing the number of quantizers improves acoustic fidelity but degrades linguistic performance, highlighting the inherent challenge of maintaining long-term coherence. We additionally introduce an LLM-as-a-Judge-based evaluation to assess the spoken content quality of generated outputs. Our models, code, and speech samples are publicly available.
- Abstract(参考訳): Llama-Mimiは,統合トークン化と単一トランスフォーマーデコーダを用いて,インターリーブ付きセマンティックトークンと音響トークンのシーケンスを共同でモデル化する言語モデルである。
包括的評価から,Llama-Mimiは音質の整合性を達成し,話者のアイデンティティを保持する能力を有することが示された。
さらに, 定量化器の増量により音質は向上するが, 言語性能は低下し, 長期的コヒーレンス維持の課題が浮き彫りとなった。
また,LLM-as-a-Judgeに基づく評価を導入し,生成した出力の音声コンテンツ品質を評価する。
私たちのモデル、コード、および音声サンプルは公開されています。
関連論文リスト
- Flow-SLM: Joint Learning of Linguistic and Acoustic Information for Spoken Language Modeling [23.374370061220763]
テキストレス音声言語モデル(英語: Textless Speech Language Model、SLM)は、テキストの監督に依存しない音声の生成モデルである。
本稿では,意味トークンと音響フレームの連続実数値表現を生成することで,言語情報と音響情報を共同でモデル化することを提案する。
論文 参考訳(メタデータ) (2025-08-12T21:25:37Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。