論文の概要: M-Wanda: Improving One-Shot Pruning for Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2505.21171v1
- Date: Tue, 27 May 2025 13:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.667771
- Title: M-Wanda: Improving One-Shot Pruning for Multilingual LLMs
- Title(参考訳): M-Wanda:多言語LLMにおけるワンショットプルーニングの改善
- Authors: Rochelle Choenni, Ivan Titov,
- Abstract要約: 本稿では,言語対応アクティベーション統計をプルーニング基準に組み込むことで,言語間変動をモデル化するプルーニング手法であるM-Wandaを提案する。
M-Wanda は最小限の追加コストで性能を継続的に向上することを示す。
- 参考スコア(独自算出の注目度): 26.473021051027526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual LLM performance is often critically dependent on model size. With an eye on efficiency, this has led to a surge in interest in one-shot pruning methods that retain the benefits of large-scale pretraining while shrinking the model size. However, as pruning tends to come with performance loss, it is important to understand the trade-offs between multilinguality and sparsification. In this work, we study multilingual performance under different sparsity constraints and show that moderate ratios already substantially harm performance. To help bridge this gap, we propose M-Wanda, a pruning method that models cross-lingual variation by incorporating language-aware activation statistics into its pruning criterion and dynamically adjusts layerwise sparsity based on cross-lingual importance. We show that M-Wanda consistently improves performance at minimal additional costs. We are the first to explicitly optimize pruning to retain multilingual performance, and hope to inspire future advances in multilingual pruning.
- Abstract(参考訳): 多言語LLMの性能はモデルサイズに大きく依存することが多い。
効率性に注目して、モデルサイズを縮小しながら大規模プレトレーニングの利点を維持するワンショットプルーニング手法への関心が高まった。
しかし, 刈り取りは性能が低下する傾向にあるため, 多言語性とスパーシフィケーションのトレードオフを理解することが重要である。
本研究では,異なる疎度制約下での多言語性能について検討し,中等度比がすでに性能を著しく損なうことを示す。
このギャップを埋めるために,言語対応アクティベーション統計をプルーニング基準に組み込むことで言語間変動をモデル化し,言語間重要度に基づいて階層的疎度を動的に調整するM-Wandaを提案する。
M-Wanda は最小限の追加コストで性能を継続的に向上することを示す。
我々はマルチランガル性能を維持するためにプルーニングを明示的に最適化し、マルチランガルプルーニングの今後の進歩を期待する。
関連論文リスト
- The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。
その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。
2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文 参考訳(メタデータ) (2025-01-10T00:10:21Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models [7.321459642283822]
ファインチューニングは、膨大なリソースと計算を必要とせずに、言語モデルの性能を向上させることができる。
LLama-2-7B モデルと Mistral-7B モデルを2つの合成多言語命令チューニングデータセット上で微調整し、モデル性能に与える影響を判定する。
小型のオープンソースモデルのPEFTは、これらのモデルとより大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
論文 参考訳(メタデータ) (2024-01-15T11:06:43Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。