論文の概要: Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers
- arxiv url: http://arxiv.org/abs/2601.10770v1
- Date: Thu, 15 Jan 2026 13:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.245162
- Title: Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers
- Title(参考訳): 自己回帰変換器を用いた音声認識・合成・変換の統一化
- Authors: Runyuan Cai, Yu Lin, Yiming Wang, Chunlin Fu, Xiaodong Zeng,
- Abstract要約: General-Purpose Audio (GPA) は、単一の大規模言語モデル(LLM)アーキテクチャに複数のコア音声タスクを統合する統合オーディオ基盤モデルである。
GPAは、共有された離散オーディオトークン空間で動作し、命令駆動タスク誘導をサポートし、単一の自己回帰モデルが柔軟にTS、ASR、VCを実現する。
- 参考スコア(独自算出の注目度): 8.890811356340953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional speech systems typically rely on separate, task-specific models for text-to-speech (TTS), automatic speech recognition (ASR), and voice conversion (VC), resulting in fragmented pipelines that limit scalability, efficiency, and cross-task generalization. In this paper, we present General-Purpose Audio (GPA), a unified audio foundation model that integrates multiple core speech tasks within a single large language model (LLM) architecture. GPA operates on a shared discrete audio token space and supports instruction-driven task induction, enabling a single autoregressive model to flexibly perform TTS, ASR, and VC without architectural modifications. This unified design combines a fully autoregressive formulation over discrete speech tokens, joint multi-task training across speech domains, and a scalable inference pipeline that achieves high concurrency and throughput. The resulting model family supports efficient multi-scale deployment, including a lightweight 0.3B-parameter variant optimized for edge and resource-constrained environments. Together, these design choices demonstrate that a unified autoregressive architecture can achieve competitive performance across diverse speech tasks while remaining viable for low-latency, practical deployment.
- Abstract(参考訳): 従来の音声システムは、通常、テキスト音声(TTS)、自動音声認識(ASR)、音声変換(VC)のための個別のタスク固有のモデルに依存しており、その結果、スケーラビリティ、効率、およびクロスタスクの一般化を制限する断片化されたパイプラインが作られる。
本稿では,単一大言語モデル(LLM)アーキテクチャに複数のコア音声タスクを統合する統合音声基盤モデルであるGeneral-Purpose Audio(GPA)を提案する。
GPAは、共有された離散オーディオトークン空間で動作し、命令駆動タスク誘導をサポートし、単一の自己回帰モデルがアーキテクチャ変更なしにTS、ASR、VCを柔軟に実行できるようにする。
この統一された設計は、離散的な音声トークンに対する完全な自己回帰的定式化、音声ドメイン間の共同マルチタスクトレーニング、高並列性とスループットを実現するスケーラブルな推論パイプラインを組み合わせる。
結果として得られたモデルファミリは、エッジとリソース制約のある環境に最適化された軽量の0.3Bパラメータを含む、効率的なマルチスケールデプロイメントをサポートする。
これらの設計上の選択は、統合された自己回帰アーキテクチャが、低レイテンシで実用的なデプロイメントを継続しながら、多様な音声タスク間での競合性能を実現することを証明している。
関連論文リスト
- HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling [52.537908557508324]
HarmoniFuseは、マルチタスク音声言語モデリングのためのコンポーネント選択およびプロンプト適応フレームワークである。
バッチインターリーブのトレーニング戦略により、ジョイントアノテーションを必要とせずに、別々のASRとSERデータセットを活用することができる。
論文 参考訳(メタデータ) (2025-09-23T02:53:38Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions [48.02083833667388]
仮想アシスタントインタラクションのための言語モデルであるSELMAを提示し,評価する。
オーディオエンコーダとLarge Language Modelの両方のパラメータ効率訓練に低ランク適応モジュールを用いる。
論文 参考訳(メタデータ) (2025-01-31T18:30:36Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。