論文の概要: Extracting Small Translation Specialists from LLMs by Aggressively Pruning Experts
- arxiv url: http://arxiv.org/abs/2605.28042v1
- Date: Wed, 27 May 2026 06:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.817755
- Title: Extracting Small Translation Specialists from LLMs by Aggressively Pruning Experts
- Title(参考訳): 攻撃的プルーニング専門家によるLSMからの小翻訳スペシャリストの抽出
- Authors: Liu O. Martin, Lucas Bandarkar, Nanyun Peng,
- Abstract要約: 現代の大規模言語モデル(LLM)は最先端の機械翻訳性能を達成する。
彼らは、翻訳とは無関係な多くのタスクと能力のために訓練された幅広い一般主義者である。
本稿では, 翻訳品質の劣化を招きつつ, 現代のLLMから専門家を積極的に刈り取る手法を提案する。
- 参考スコア(独自算出の注目度): 41.27464926788608
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern large language models (LLMs) achieve state-of-the-art machine translation performance, but they do so as broad generalists largely trained for many tasks and capabilities unrelated to translation. Thus, they are heavily overparameterized for this task, resulting in excessive memory and compute requirements. In this paper, we present a method for aggressively pruning experts from modern mixture-of-experts LLMs while incurring negligible degradation in translation quality. Our approach exploits expert specialization and the separability of multilingual capabilities in LLMs to identify experts irrelevant to translation. And because of the modular nature of MoEs, these can be easily pruned without any training. Without retraining, we are able to prune half of all experts with negligible degradation and 70% with only minor losses. With a very short SFT, we prune 75% of experts while recovering baseline performance, and in some settings remove nearly 90% while maintaining reasonable translation quality. Overall, our results show that translation requires only a fraction of the LLM, enabling substantial compression of the MoE blocks that contain over 90% of parameters.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は最先端の機械翻訳性能を達成しているが、翻訳とは無関係な多くのタスクや能力のために訓練された幅広い一般主義者である。
したがって、それらはこのタスクに対して非常に過度にパラメータ化され、結果として過剰なメモリと計算要求が生じる。
本稿では, 翻訳品質の劣化を招きながら, 現代のLLMから専門家を積極的に刈り取る手法を提案する。
本手法は,LLMにおける専門家の専門化と多言語能力の分離性を利用して,翻訳に無関係な専門家を同定する。
そして、MoEsのモジュラー性のため、トレーニングなしで簡単に刈り取ることができる。
再トレーニングなしでは、無視できない劣化と70%の損失しか与えない専門家の半数を訓練することができます。
非常に短いSFTで、ベースラインのパフォーマンスを回復しながら、75%のエキスパートをプルークし、ある設定では、適切な翻訳品質を維持しながら90%近くを削除します。
以上の結果から,LLMの変換に要する割合はごくわずかであり,90%以上のパラメータを含むMoEブロックの相当な圧縮が可能であることが示唆された。
関連論文リスト
- Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。
しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。
我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文 参考訳(メタデータ) (2025-03-06T12:14:45Z) - The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities [18.175795328685986]
機械翻訳のための微調整大型言語モデル(LLM)は、全体的な翻訳品質が改善されている。
モデルサイズは70億から65億までの範囲で,LLaMAおよびファルコン系のモデルに対して広範な翻訳評価を行う。
フォーマルなステアリングを行う能力の低下、数ショットの例による技術的翻訳の作成、文書レベルの翻訳を行う能力の低下を観察する。
論文 参考訳(メタデータ) (2024-05-30T14:25:56Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。