論文の概要: Efficient Speech Translation through Model Compression and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2505.20237v2
- Date: Mon, 02 Jun 2025 12:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.00016
- Title: Efficient Speech Translation through Model Compression and Knowledge Distillation
- Title(参考訳): モデル圧縮と知識蒸留による効率的な音声翻訳
- Authors: Yasmin Moslem,
- Abstract要約: 本稿では,音声翻訳のための大規模音声モデルの効率的な展開という課題に対処する。
我々は,4ビット量子化(QLoRA)による低ランク適応,知識蒸留に基づく反復層プルーニングを用いる。
筆者ら(学生)モデルは,モデルパラメータとストレージフットプリントの両方を最大50%削減すると同時に,ドメイン内(教師)モデルの翻訳品質の97-100%を維持できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient deployment of large audio-language models for speech translation remains challenging due to their significant computational requirements. In this paper, we address this challenge through our system submissions to the "Model Compression" track at the International Conference on Spoken Language Translation (IWSLT 2025). We experiment with a combination of approaches including iterative layer pruning based on layer importance evaluation, low-rank adaptation with 4-bit quantization (QLoRA), and knowledge distillation. In our experiments, we use Qwen2-Audio-7B-Instruct for speech translation into German and Chinese. Our pruned (student) models achieve up to a 50% reduction in both model parameters and storage footprint, while retaining 97-100% of the translation quality of the in-domain (teacher) models.
- Abstract(参考訳): 音声翻訳のための大規模音声言語モデルの効率的な展開は、その重要な計算要求のため、依然として困難である。
本稿では,IWSLT 2025(International Conference on Spoken Language Translation)の"Model Compression"トラックへのシステム提出を通じて,この問題に対処する。
我々は,4ビット量子化による低ランク適応(QLoRA)と知識蒸留(ナレッジ蒸留)を併用し,層重み評価に基づく反復層プルーニング(イテレーティブ層プルーニング)を実験した。
実験では、Qwen2-Audio-7B-Instructを使ってドイツ語と中国語の音声翻訳を行った。
筆者ら(学生)モデルは,モデルパラメータとストレージフットプリントの両方を最大50%削減すると同時に,ドメイン内(教師)モデルの翻訳品質の97-100%を維持できる。
関連論文リスト
- On Multilingual Encoder Language Model Compression for Low-Resource Languages [10.868526090169283]
本稿では,多言語エンコーダのみの言語モデルに対して,2段階の知識蒸留,構造化プルーニング,トランケーション,ボキャブラリトリミングを組み合わせる。
圧縮速度は最大92%で、4つの下流タスクで2-10%の限界性能低下しか達成できません。
特に、パフォーマンス劣化は教師モデルにおける言語固有のデータの量と相関し、より大きなデータセットはパフォーマンス損失を小さくする。
論文 参考訳(メタデータ) (2025-05-22T17:35:39Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。