論文の概要: From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training
- arxiv url: http://arxiv.org/abs/2509.20072v2
- Date: Thu, 25 Sep 2025 09:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 12:02:33.950288
- Title: From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training
- Title(参考訳): テキストから講演へ:非自己回帰的関節訓練を必要とするオーディオ言語モデル
- Authors: Tianqiao Liu, Xueyi Li, Hao Wang, Haoxuan Li, Zhichao Chen, Weiqi Luo, Zitao Liu,
- Abstract要約: Text-to-Talk (TtT) は、自動回帰(AR)テキスト生成と非自己回帰(NAR)音声拡散を統合した統合オーディオテキストフレームワークである。
このハイブリッド生成パラダイムをサポートするために,テキストの因果復号を強制するモダリティ対応アテンション機構を設計する。
推論中、TtTは可変長出力を柔軟に処理しながら、ブロックワイド拡散を用いてオーディオを並列に合成する。
- 参考スコア(独自算出の注目度): 19.396162898865864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have attracted significant interest in extending their capabilities to multimodal scenarios, particularly for speech-to-speech conversational systems. However, existing multimodal models handling interleaved audio and text rely on autoregressive methods, overlooking that text depends on target-target relations whereas audio depends mainly on source-target relations. In this work, we propose Text-to-Talk (TtT), a unified audio-text framework that integrates autoregressive (AR) text generation with non-autoregressive (NAR) audio diffusion in a single Transformer. By leveraging the any-order autoregressive property of absorbing discrete diffusion, our approach provides a unified training objective for text and audio. To support this hybrid generation paradigm, we design a modality-aware attention mechanism that enforces causal decoding for text while allowing bidirectional modeling within audio spans, and further introduce three training strategies that reduce train-test discrepancies. During inference, TtT employs block-wise diffusion to synthesize audio in parallel while flexibly handling variable-length outputs. Extensive experiments across Audio-QA and ASR tasks demonstrate the effectiveness of our approach, with detailed ablation studies validating each proposed component. We will open-source our models, data and code to facilitate future research in this direction.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特に音声音声対話システムにおいて、その能力をマルチモーダルシナリオにまで拡張することに大きな関心を集めている。
しかしながら、インターリーブされた音声とテキストを扱う既存のマルチモーダルモデルは、自動回帰手法に依存しており、テキストはターゲットとターゲットの関係に依存しているのに対して、オーディオは主にソースとターゲットの関係に依存している。
本研究では、自動回帰(AR)テキスト生成と非自己回帰(NAR)音声拡散を統合した統合音声テキストフレームワークであるText-to-Talk(TtT)を提案する。
離散拡散を吸収する任意の順序自己回帰特性を活用することにより,本手法はテキストと音声の統一的な学習目標を提供する。
このハイブリッド・ジェネレーション・パラダイムをサポートするために、音声スパン内の双方向モデリングを可能にしつつ、テキストの因果的復号を強制するモダリティ対応アテンション機構を設計し、さらに、列車とテストの相違を低減させる3つのトレーニング戦略を導入する。
推論中、TtTは可変長出力を柔軟に処理しながら、ブロックワイド拡散を用いてオーディオを並列に合成する。
オーディオQAタスクとASRタスクの広範囲にわたる実験により,提案手法の有効性が実証された。
我々は、この方向への将来の研究を促進するために、私たちのモデル、データ、コードをオープンソースにします。
関連論文リスト
- UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [62.00227663434538]
DRVOICE-7BはOpenAudioBenchとBig Bench Audioベンチマーク上で新しい最先端(SOTA)を確立する。
本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
論文 参考訳(メタデータ) (2025-06-11T02:57:22Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant [0.0]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声ベースのタスクへの応用は依然として困難である。
本稿では,音声とテキストのインターリーブシーケンスをシームレスに処理する混合モーダルモデルを提案する。
本稿では,多言語音声認識データセットの事前学習を含む包括的学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-20T07:03:49Z) - Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment [19.48653924804823]
大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) は, 大規模音声データセットの処理や, 新しい話者に対する自然な音声生成において, 顕著な能力を示した。
しかし、LLMベースのTSモデルは、生成した出力が繰り返し単語、欠落した単語、不一致した音声を含むことができるため、堅牢ではない。
エンコーダ・デコーダ・トランスフォーマーモデルを用いてこれらの課題を検証し、与えられたテキストに対する音声トークンの予測訓練において、そのようなモデルにおける特定のクロスアテンションヘッドが暗黙的にテキストと音声アライメントを学習することを確認する。
論文 参考訳(メタデータ) (2024-06-25T22:18:52Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Auffusion: Leveraging the Power of Diffusion and Large Language Models
for Text-to-Audio Generation [13.626626326590086]
本稿では,T2Iモデルフレームワークをテキスト・トゥ・オーディオ(TTA)タスクに適用したテキスト・トゥ・イメージ(T2I)システムであるAuffusionを紹介する。
評価の結果,Auffusionは限られたデータと計算資源を用いて,従来のTTAアプローチを超越していることがわかった。
以上の結果から,Auffusionはテキスト記述と正確に一致した音声を生成する能力に優れていたことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-02T05:42:14Z) - Enhance audio generation controllability through representation
similarity regularization [23.320569279485472]
本稿では,モデル学習における音声表現とテキスト表現のアライメントを強調することによって,音声生成の制御を強化する革新的なアプローチを提案する。
提案手法は、音声と音楽の両方の客観的な指標の改善と、音声生成における人間の知覚の向上につながる。
論文 参考訳(メタデータ) (2023-09-15T21:32:20Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。