論文の概要: FastSLM: Hierarchical Frame Q-Former for Effective Speech Modality Adaptation
- arxiv url: http://arxiv.org/abs/2601.06199v1
- Date: Thu, 08 Jan 2026 07:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.673633
- Title: FastSLM: Hierarchical Frame Q-Former for Effective Speech Modality Adaptation
- Title(参考訳): FastSLM: 効果的な音声モダリティ適応のための階層型Q-Former
- Authors: Junseok Lee, Sangyong Lee, Chang-Jae Chun,
- Abstract要約: FastSLMは、長文音声に対する効果的な理解と推論のために設計された軽量で効率的な音声言語モデル(SLM)である。
本稿では,多岐にわたる音声関連タスクの一般化を促進する新しい3段階学習戦略を提案する。
実験結果から,FastSLMは既存の最先端モデルと比較して競争性能が向上することが示された。
- 参考スコア(独自算出の注目度): 3.8125534288516683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated human-expert-level capabilities, driving significant interest in their potential for achieving artificial general intelligence (AGI). In particular, there is growing momentum in adapting LLMs to various modalities, including vision, video, and speech, through the development of multimodal LLMs (MLLMs). However, existing speech-language model (SLM) research has largely overlooked cost-effective adaptation strategies for leveraging LLMs in the speech domain. In this paper, we propose FastSLM, a lightweight yet efficient SLM designed for effective understanding and reasoning over long-form speech. To address the challenge of aligning high-frame-rate speech features with LLMs, we introduce the Hierarchical Frame Querying Transformer (HFQ-Former), which compresses frame-level speech features while capturing both local and global context. Furthermore, we present a novel three-stage training strategy that enhances generalization across a wide range of speech-related tasks. Experimental results demonstrate that FastSLM achieves competitive performance compared to existing state-of-the-art models, despite operating with significantly lower FLOPs and parameter counts, while representing speech with only 1.67 tokens per second. The source code and model checkpoints are available at https://huggingface.co/okestro-ai-lab/FastSLM.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、人間の専門レベルの能力を示し、人工知能(AGI)を実現する可能性に大きな関心を惹き付けている。
特に、マルチモーダルLLM(MLLM)の開発を通じて、視覚、ビデオ、音声など様々なモダリティにLLMを適応させる動きが高まっている。
しかし,既存の音声言語モデル (SLM) 研究は,LLMを音声領域で活用するためのコスト効率の高い適応戦略を概ね見落としている。
本稿では,長文音声に対する効果的な理解と推論を目的とした軽量で効率的なSLMであるFastSLMを提案する。
LLMと高フレームレート音声特徴の整合化の課題に対処するために,局所的・グローバル的両方の文脈を捉えながらフレームレベルの音声特徴を圧縮する階層型フレームクエリ変換器(HFQ-Former)を導入する。
さらに,多岐にわたる音声関連タスクの一般化を促進する新しい3段階学習戦略を提案する。
実験結果から,FastSLMはFLOPとパラメータカウントが大幅に低いのに対して,1秒あたり1.67トークンの音声を表現しているにも関わらず,既存の最先端モデルと比較して競争性能が向上していることが示された。
ソースコードとモデルチェックポイントはhttps://huggingface.co/okestro-ai-lab/FastSLMで公開されている。
関連論文リスト
- EmoSLLM: Parameter-Efficient Adaptation of LLMs for Speech Emotion Recognition [0.0]
音声からの感情認識は言語とパラ言語の両方を捉えることを必要とする難しい課題である。
最近の研究は、Large Language Models(LLM)が唯一の自然言語領域の外でタスクを実行する能力を強調している。
本研究は、感情予測のための音声およびテキスト表現を備えたLLMを微調整する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-08-19T06:58:16Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。
さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文 参考訳(メタデータ) (2024-10-27T04:28:57Z) - BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5 [25.644228338604815]
我々は,TwO Worlds の BESt 機能を高効率でマルチタスク能力の強い単一モデルに組み込むための BESTOW アーキテクチャを提案する。
我々は,ストリーム可能なSpeechLLMを読み書きポリシ問題として再構成し,BESTOWアーキテクチャを用いてオフラインおよびストリーミング研究を統合する。
論文 参考訳(メタデータ) (2024-06-28T14:40:03Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - SLM: Bridge the thin gap between speech and text foundation models [45.319071954143325]
音声・言語モデル (SLM) は、事前訓練された基礎言語モデルと言語モデルを利用するマルチタスク、多言語、二重モーダルモデルである。
我々は、SLMは訓練に効率的であるが、異なるモダリティの基盤モデルで既に獲得されている強力な能力を継承することを示した。
論文 参考訳(メタデータ) (2023-09-30T02:27:45Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。