論文の概要: EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
- arxiv url: http://arxiv.org/abs/2509.09174v1
- Date: Thu, 11 Sep 2025 06:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.246858
- Title: EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
- Title(参考訳): EchoX:音声合成LLMのためのエコートレーニングによる音響意味ギャップの緩和に向けて
- Authors: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li,
- Abstract要約: 音声から音声への大言語モデル (SLLM) が注目されている。
SLLMの現在の訓練パラダイムは、特徴表現空間の音響-意味的ギャップを埋めることに失敗した。
本稿では,意味表現を活用し,音声訓練対象を動的に生成するEchoXを提案する。
- 参考スコア(独自算出の注目度): 48.24838119552923
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech-to-speech large language models (SLLMs) are attracting increasing attention. Derived from text-based large language models (LLMs), SLLMs often exhibit degradation in knowledge and reasoning capabilities. We hypothesize that this limitation arises because current training paradigms for SLLMs fail to bridge the acoustic-semantic gap in the feature representation space. To address this issue, we propose EchoX, which leverages semantic representations and dynamically generates speech training targets. This approach integrates both acoustic and semantic learning, enabling EchoX to preserve strong reasoning abilities as a speech LLM. Experimental results demonstrate that EchoX, with about six thousand hours of training data, achieves advanced performance on multiple knowledge-based question-answering benchmarks. The project is available at https://github.com/FreedomIntelligence/EchoX.
- Abstract(参考訳): 音声から音声への大言語モデル (SLLM) が注目されている。
テキストベースの大規模言語モデル(LLM)から派生したSLLMは、しばしば知識と推論能力の低下を示す。
この制限は、SLLMの現在の訓練パラダイムが特徴表現空間の音響的・意味的ギャップを橋渡しできないためである、という仮説を立てる。
この問題に対処するために,意味表現を活用し,動的に音声訓練ターゲットを生成するEchoXを提案する。
このアプローチは音響学習と意味学習を統合し、EchoXは音声LLMとして強力な推論能力を維持できる。
実験結果から,約6万時間のトレーニングデータを持つEchoXは,複数の知識に基づく質問応答ベンチマークにおいて,高度な性能を実現することが示された。
このプロジェクトはhttps://github.com/FreedomIntelligence/EchoXで入手できる。
関連論文リスト
- Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning [13.113505050543298]
本稿では,音声入力を処理可能な大規模言語モデルを提案する。
人間の嗜好に基づく強化学習でさらに調整することで、従来の微調整よりも混乱した音声に適応できることが示される。
論文 参考訳(メタデータ) (2024-12-25T00:16:22Z) - Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
本研究は、重みを微調整することなく、音声のパラ言語的側面を理解するための大規模言語モデル(LLM)の能力について研究する。
音声エンコーダを用いたエンドツーエンドシステムを用いて,LLMの表現的音声プロンプトに対する応答が意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを訓練する。
論文 参考訳(メタデータ) (2024-10-02T01:32:47Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。