論文の概要: From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training
- arxiv url: http://arxiv.org/abs/2509.20072v1
- Date: Wed, 24 Sep 2025 12:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.811389
- Title: From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training
- Title(参考訳): テキストから講演へ:非自己回帰的関節訓練を必要とするオーディオ言語モデル
- Authors: Tianqiao Liu, Xueyi Li, Hao Wang, Haoxuan Li, Zhichao Chen, Weiqi Luo, Zitao Liu,
- Abstract要約: 本稿では,ARテキスト生成と非自己回帰音声拡散を統合した統合音声テキストモデリングフレームワークを提案する。
本研究では,ARテキスト生成と非自己回帰音声拡散を統合した統合音声テキストモデリングフレームワークTtTを提案する。
- 参考スコア(独自算出の注目度): 19.396162898865864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models have attracted significant interest in extending their capabilities to multimodal scenarios, particularly for speech-in speech-out conversational systems. However, existing multimodal models handling interleaved audio and text, such as MOSHI require complex multi stage training pipelines, incurring substantial computational costs. Moreover, these models uniformly apply autoregressive generation to both text and audio tokens, overlooking a fundamental asymmetry in their dependency structures: while text tokens exhibit strong target target dependencies requiring causal ordering, audio tokens are predominantly driven by source target dependencies, where audio outputs primarily condition on source text rather than preceding audio tokens. In this work, we propose TtT, a unified audio-text modeling framework that integrates AR text generation with non-autoregressive audio diffusion within a single Transformer architecture initialized from a pretrained LLM.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、特に音声対話システムにおいて、多モーダルシナリオにその能力を拡張することに大きな関心を惹きつけている。
しかし、MOSHIのようなインターリーブオーディオやテキストを扱う既存のマルチモーダルモデルは、複雑なマルチステージトレーニングパイプラインを必要とし、かなりの計算コストを発生させる。
さらに、これらのモデルは、テキストトークンとオーディオトークンの両方に一様に自己回帰生成を適用し、従属構造における基本的な非対称性を見越す: テキストトークンは因果順序を必要とする強いターゲット依存性を示すが、オーディオトークンは、主にソースターゲット依存性によって駆動される。
本研究では,事前学習したLLMから初期化した単一トランスフォーマーアーキテクチャにおいて,ARテキスト生成と非自己回帰型音声拡散を統合した統合音声テキストモデリングフレームワークTtTを提案する。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant [0.0]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声ベースのタスクへの応用は依然として困難である。
本稿では,音声とテキストのインターリーブシーケンスをシームレスに処理する混合モーダルモデルを提案する。
本稿では,多言語音声認識データセットの事前学習を含む包括的学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-20T07:03:49Z) - Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment [19.48653924804823]
大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) は, 大規模音声データセットの処理や, 新しい話者に対する自然な音声生成において, 顕著な能力を示した。
しかし、LLMベースのTSモデルは、生成した出力が繰り返し単語、欠落した単語、不一致した音声を含むことができるため、堅牢ではない。
エンコーダ・デコーダ・トランスフォーマーモデルを用いてこれらの課題を検証し、与えられたテキストに対する音声トークンの予測訓練において、そのようなモデルにおける特定のクロスアテンションヘッドが暗黙的にテキストと音声アライメントを学習することを確認する。
論文 参考訳(メタデータ) (2024-06-25T22:18:52Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。