論文の概要: From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training
- arxiv url: http://arxiv.org/abs/2509.20072v2
- Date: Thu, 25 Sep 2025 09:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 12:02:33.950288
- Title: From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training
- Title(参考訳): テキストから講演へ:非自己回帰的関節訓練を必要とするオーディオ言語モデル
- Authors: Tianqiao Liu, Xueyi Li, Hao Wang, Haoxuan Li, Zhichao Chen, Weiqi Luo, Zitao Liu,
- Abstract要約: Text-to-Talk (TtT) は、自動回帰(AR)テキスト生成と非自己回帰(NAR)音声拡散を統合した統合オーディオテキストフレームワークである。
このハイブリッド生成パラダイムをサポートするために,テキストの因果復号を強制するモダリティ対応アテンション機構を設計する。
推論中、TtTは可変長出力を柔軟に処理しながら、ブロックワイド拡散を用いてオーディオを並列に合成する。
- 参考スコア(独自算出の注目度): 19.396162898865864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have attracted significant interest in extending their capabilities to multimodal scenarios, particularly for speech-to-speech conversational systems. However, existing multimodal models handling interleaved audio and text rely on autoregressive methods, overlooking that text depends on target-target relations whereas audio depends mainly on source-target relations. In this work, we propose Text-to-Talk (TtT), a unified audio-text framework that integrates autoregressive (AR) text generation with non-autoregressive (NAR) audio diffusion in a single Transformer. By leveraging the any-order autoregressive property of absorbing discrete diffusion, our approach provides a unified training objective for text and audio. To support this hybrid generation paradigm, we design a modality-aware attention mechanism that enforces causal decoding for text while allowing bidirectional modeling within audio spans, and further introduce three training strategies that reduce train-test discrepancies. During inference, TtT employs block-wise diffusion to synthesize audio in parallel while flexibly handling variable-length outputs. Extensive experiments across Audio-QA and ASR tasks demonstrate the effectiveness of our approach, with detailed ablation studies validating each proposed component. We will open-source our models, data and code to facilitate future research in this direction.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特に音声音声対話システムにおいて、その能力をマルチモーダルシナリオにまで拡張することに大きな関心を集めている。
しかしながら、インターリーブされた音声とテキストを扱う既存のマルチモーダルモデルは、自動回帰手法に依存しており、テキストはターゲットとターゲットの関係に依存しているのに対して、オーディオは主にソースとターゲットの関係に依存している。
本研究では、自動回帰(AR)テキスト生成と非自己回帰(NAR)音声拡散を統合した統合音声テキストフレームワークであるText-to-Talk(TtT)を提案する。
離散拡散を吸収する任意の順序自己回帰特性を活用することにより,本手法はテキストと音声の統一的な学習目標を提供する。
このハイブリッド・ジェネレーション・パラダイムをサポートするために、音声スパン内の双方向モデリングを可能にしつつ、テキストの因果的復号を強制するモダリティ対応アテンション機構を設計し、さらに、列車とテストの相違を低減させる3つのトレーニング戦略を導入する。
推論中、TtTは可変長出力を柔軟に処理しながら、ブロックワイド拡散を用いてオーディオを並列に合成する。
オーディオQAタスクとASRタスクの広範囲にわたる実験により,提案手法の有効性が実証された。
我々は、この方向への将来の研究を促進するために、私たちのモデル、データ、コードをオープンソースにします。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant [0.0]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声ベースのタスクへの応用は依然として困難である。
本稿では,音声とテキストのインターリーブシーケンスをシームレスに処理する混合モーダルモデルを提案する。
本稿では,多言語音声認識データセットの事前学習を含む包括的学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-20T07:03:49Z) - Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment [19.48653924804823]
大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) は, 大規模音声データセットの処理や, 新しい話者に対する自然な音声生成において, 顕著な能力を示した。
しかし、LLMベースのTSモデルは、生成した出力が繰り返し単語、欠落した単語、不一致した音声を含むことができるため、堅牢ではない。
エンコーダ・デコーダ・トランスフォーマーモデルを用いてこれらの課題を検証し、与えられたテキストに対する音声トークンの予測訓練において、そのようなモデルにおける特定のクロスアテンションヘッドが暗黙的にテキストと音声アライメントを学習することを確認する。
論文 参考訳(メタデータ) (2024-06-25T22:18:52Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。