論文の概要: FastLongSpeech: Enhancing Large Speech-Language Models for Efficient Long-Speech Processing
- arxiv url: http://arxiv.org/abs/2507.14815v1
- Date: Sun, 20 Jul 2025 04:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.071491
- Title: FastLongSpeech: Enhancing Large Speech-Language Models for Efficient Long-Speech Processing
- Title(参考訳): FastLongSpeech:効率的な長音声処理のための大規模音声言語モデルの実現
- Authors: Shoutao Guo, Shaolei Zhang, Qingkai Fang, Zhengrui Ma, Min Zhang, Yang Feng,
- Abstract要約: FastLongSpeechは、LSLM機能を拡張して効率的な長音声処理を実現するように設計されている。
過度に長い音声シーケンスを管理可能な長さに圧縮できる反復融合戦略が組み込まれている。
提案手法は,長音・短音の両タスクにおいて高い性能を示し,推論効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 48.84039953531356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has spurred significant progress in Large Speech-Language Models (LSLMs), enhancing their capabilities in both speech understanding and generation. While existing LSLMs often concentrate on augmenting speech generation or tackling a diverse array of short-speech tasks, the efficient processing of long-form speech remains a critical yet underexplored challenge. This gap is primarily attributed to the scarcity of long-speech training datasets and the high computational costs associated with long sequences. To address these limitations, we introduce FastLongSpeech, a novel framework designed to extend LSLM capabilities for efficient long-speech processing without necessitating dedicated long-speech training data. FastLongSpeech incorporates an iterative fusion strategy that can compress excessively long-speech sequences into manageable lengths. To adapt LSLMs for long-speech inputs, it introduces a dynamic compression training approach, which exposes the model to short-speech sequences at varying compression ratios, thereby transferring the capabilities of LSLMs to long-speech tasks. To assess the long-speech capabilities of LSLMs, we develop a long-speech understanding benchmark called LongSpeech-Eval. Experiments show that our method exhibits strong performance in both long-speech and short-speech tasks, while greatly improving inference efficiency.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、Large Speech-Language Models (LSLM) に大きな進歩をもたらした。
既存のLSLMは、音声生成の増強や、様々な短い音声タスクへの対処に重点を置いていることが多いが、長文音声の効率的な処理は、いまだに過小評価されていない課題である。
このギャップは主に、長い音声のトレーニングデータセットの不足と、長いシーケンスに関連する高い計算コストに起因する。
これらの制約に対処するため,我々は,LSLM機能を拡張して,音声処理を効率化するフレームワークであるFastLongSpeechを紹介した。
FastLongSpeechは、過剰に長い音声シーケンスを管理可能な長さに圧縮できる反復融合戦略を取り入れている。
長音入力にLSLMを適用するために、動的圧縮訓練手法を導入し、圧縮率の異なる短音列にモデルを公開することにより、LSLMの機能を長音タスクに転送する。
LSLMの長音声能力を評価するため,LongSpeech-Evalと呼ばれる長音声理解ベンチマークを開発した。
実験の結果,提案手法は長音声と短音声の両方において高い性能を示し,推論効率は大幅に向上した。
関連論文リスト
- Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。
我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。
SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - Breaking the Stage Barrier: A Novel Single-Stage Approach to Long Context Extension for Large Language Models [28.253786579346432]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
現在、ロングコンテキストモデリングに対する解決策は、しばしば多段階連続体を用いる。
本稿では,新しい単段連続事前学習手法であるヘッドアダプティブロータリー位置について紹介する。
論文 参考訳(メタデータ) (2024-12-10T04:09:29Z) - Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。
さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文 参考訳(メタデータ) (2024-10-27T04:28:57Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。
このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文 参考訳(メタデータ) (2024-09-25T20:59:12Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。