論文の概要: Unlocking Speech Instruction Data Potential with Query Rewriting
- arxiv url: http://arxiv.org/abs/2507.08603v1
- Date: Fri, 11 Jul 2025 13:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.37764
- Title: Unlocking Speech Instruction Data Potential with Query Rewriting
- Title(参考訳): クエリ書き換えによる音声命令データポテンシャルのアンロック
- Authors: Yonghua Hei, Yibo Yan, Shuliang Liu, Huiyu Zhou, Linfeng Zhang, Xuming Hu,
- Abstract要約: エンド・ツー・エンドの大規模言語モデル(textbfLSLMs)は応答待ち時間と音声理解能力に強い可能性を示す。
しかし、データセットの欠如や訓練タスクの偏りが強かったため、音声指示に従う能力は十分には実現されていない。
合成音声のアノテートと検証に複数のエージェントを用いたマルチLLM知識融合によるクエリ書き換えフレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.134056897363557
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end Large Speech Language Models~(\textbf{LSLMs}) demonstrate strong potential in response latency and speech comprehension capabilities, showcasing general intelligence across speech understanding tasks. However, the ability to follow speech instructions has not been fully realized due to the lack of datasets and heavily biased training tasks. Leveraging the rich ASR datasets, previous approaches have used Large Language Models~(\textbf{LLMs}) to continue the linguistic information of speech to construct speech instruction datasets. Yet, due to the gap between LLM-generated results and real human responses, the continuation methods further amplify these shortcomings. Given the high costs of collecting and annotating speech instruction datasets by humans, using speech synthesis to construct large-scale speech instruction datasets has become a balanced and robust alternative. Although modern Text-To-Speech~(\textbf{TTS}) models have achieved near-human-level synthesis quality, it is challenging to appropriately convert out-of-distribution text instruction to speech due to the limitations of the training data distribution in TTS models. To address this issue, we propose a query rewriting framework with multi-LLM knowledge fusion, employing multiple agents to annotate and validate the synthesized speech, making it possible to construct high-quality speech instruction datasets without relying on human annotation. Experiments show that this method can transform text instructions into distributions more suitable for TTS models for speech synthesis through zero-shot rewriting, increasing data usability from 72\% to 93\%. It also demonstrates unique advantages in rewriting tasks that require complex knowledge and context-related abilities.
- Abstract(参考訳): エンドツーエンドのLarge Speech Language Models~(\textbf{LSLMs})は、応答待ち時間と音声理解能力に強いポテンシャルを示し、音声理解タスク全体にわたる汎用知能を示す。
しかし、データセットの欠如や訓練タスクの偏りが強かったため、音声指示に従う能力は十分には実現されていない。
リッチなASRデータセットを活用するため、従来のアプローチではLarge Language Models~(\textbf{LLMs})を使用して音声の言語情報を継続して音声命令データセットを構築してきた。
しかし、LLM生成結果と実際の人間の反応の差により、継続法はさらにこれらの欠点を増幅する。
人間による音声命令データセットの収集と注釈付けのコストが高いことから、大規模音声命令データセットの構築に音声合成を用いることは、バランスのとれた、堅牢な代替手段となっている。
現代のText-To-Speech~(\textbf{TTS})モデルは、ほぼ人間レベルの合成品質を達成したが、TSモデルにおけるトレーニングデータ分布の制限により、アウト・オブ・ディストリビューションのテキスト命令を適切に音声に変換することは困難である。
この問題に対処するために,マルチLLM知識融合を用いたクエリ書き換えフレームワークを提案し,複数のエージェントを用いて合成音声の注釈付けと検証を行い,人間のアノテーションを頼らずに高品質な音声指示データセットの構築を可能にする。
実験により, テキスト命令をゼロショット書き換えによる音声合成に適した分布に変換し, ユーザビリティを72\%から93\%に向上できることがわかった。
また、複雑な知識とコンテキスト関連の能力を必要とするタスクを書き換える際、独特な利点を示す。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - Speechless: Speech Instruction Training Without Speech for Low Resource Languages [14.223895501862811]
音声コマンドの理解と実行を微調整する大規模言語モデルには,音声命令データの不足が不可欠である。
我々の新しいアプローチは、TSの必要性を回避し、意味表現レベルでの合成を停止することで、この問題に対処する。
我々は,合成意味表現を事前訓練されたWhisperエンコーダと整合させ,LLMをテキスト命令で微調整し,推論中の音声命令を理解する能力を維持しながら実現した。
論文 参考訳(メタデータ) (2025-05-23T03:05:47Z) - Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - GRASS: Unified Generation Model for Speech-to-Semantic Tasks [7.044414457214718]
本稿では,音声データに対するタスク関連プロンプトに条件付きターゲットテキストを生成する統合エンドツーエンド(E2E)フレームワークを提案する。
提案モデルでは, 実体認識, 音声感情分析, 音声質問応答などを含む多くのベンチマークにおいて, 最先端のSOTA(State-of-the-art)結果が得られた。
音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。
論文 参考訳(メタデータ) (2023-09-06T06:44:26Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。