論文の概要: Measuring the Redundancy of Decoder Layers in SpeechLLMs
- arxiv url: http://arxiv.org/abs/2603.05121v1
- Date: Thu, 05 Mar 2026 12:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.22594
- Title: Measuring the Redundancy of Decoder Layers in SpeechLLMs
- Title(参考訳): 音声LLMにおけるデコーダ層の冗長性の測定
- Authors: Adel Moumen, Guangzhi Sun, Philip C Woodland,
- Abstract要約: 音声大言語モデル 音声エンコーダ表現をLLMデコーダにルーティングする。
我々は,デコーダの冗長性は,予め訓練されたLLMから大きく継承されていることを示す。
次に、同じレイヤーブロックが、音声エンコーダ、タスク、言語間で冗長であることを示す。
- 参考スコア(独自算出の注目度): 29.477655980414273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Large Language Models route speech encoder representations into an LLM decoder that typically accounts for over 90% of total parameters. We study how much of this decoder capacity is actually needed for speech tasks. Across two LLM families and three scales (1-8B), we show that decoder redundancy is largely inherited from the pretrained LLM: text and speech inputs yield similar redundant blocks. We then measure excess capacity by pruning decoder layers and analysing post-pruning healing to increase robustness. Our findings show that 7-8B models retain good ASR performance with only 60% of decoder layers, and the same trend extends to smaller scales with reduced pruning tolerance. We then generalise to speech translation, and show that the same blocks of layers are redundant across speech encoders, tasks and languages, indicating that a more global redundancy structure exists, enabling a single pruned and multi-tasks SpeechLLM backbone to be deployed.
- Abstract(参考訳): 音声大言語モデル 音声エンコーダ表現をLLMデコーダにルートし、通常は全パラメータの90%以上を占める。
本稿では,このデコーダの処理能力について検討する。
2つのLLMファミリーと3つのスケール(1-8B)にまたがって、デコーダの冗長性は予め訓練されたLLMから大きく継承されている。
次に,デコーダ層を刈り込み,切断後の治癒を解析して余剰容量を測定し,ロバスト性を高める。
以上の結果から, 7-8Bモデルでは, デコーダ層が60%に過ぎず, 良好なASR性能が保たれることが示唆された。
次に、音声翻訳に一般化し、同じレイヤーブロックが音声エンコーダ、タスク、言語間で冗長であることを示し、よりグローバルな冗長構造が存在し、単一のプルーニングされたマルチタスクのSpeechLLMバックボーンをデプロイできることを示す。
関連論文リスト
- METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。
マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。
マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文 参考訳(メタデータ) (2025-07-28T13:50:53Z) - Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders [54.03921875874111]
選択したエンコーダがマスクされた場合, 性能は良好に低下し, 広範にエンコーダの冗長性が明らかとなった。
我々は、OCRやChartのようなタスクにおいて、単一のエンコーダが90%以上のCURで支配できる強力な特殊化を観察する。
特定のエンコーダを使用すると、特定のタスクカテゴリにおいて最大16%の精度が得られ、全体のパフォーマンスがフルモデルよりも3.6%向上する。
論文 参考訳(メタデータ) (2025-07-04T02:38:59Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。