論文の概要: The Uneven Impact of Post-Training Quantization in Machine Translation
- arxiv url: http://arxiv.org/abs/2508.20893v1
- Date: Thu, 28 Aug 2025 15:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.477607
- Title: The Uneven Impact of Post-Training Quantization in Machine Translation
- Title(参考訳): 機械翻訳における後処理量子化の不均一な影響
- Authors: Benjamin Marie, Atsushi Fujita,
- Abstract要約: 資源制約のあるハードウェア上での大規模言語モデル(LLM)の展開には量子化が不可欠だが、多言語タスクに対するその意味は未解明のままである。
我々は,1.7Bから70Bパラメータの5つのLLMを用いて,55言語にわたる機械翻訳におけるPTQの大規模評価を行った。
分析の結果,4ビットの量子化は高リソース言語では翻訳品質を保ちがちであるが,低リソース言語やタイポロジーに富んだ言語では,特に2ビット設定では顕著な劣化が発生することがわかった。
- 参考スコア(独自算出の注目度): 6.398727997282354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is essential for deploying large language models (LLMs) on resource-constrained hardware, but its implications for multilingual tasks remain underexplored. We conduct the first large-scale evaluation of post-training quantization (PTQ) on machine translation across 55 languages using five LLMs ranging from 1.7B to 70B parameters. Our analysis reveals that while 4-bit quantization often preserves translation quality for high-resource languages and large models, significant degradation occurs for low-resource and typologically diverse languages, particularly in 2-bit settings. We compare four quantization techniques (AWQ, BitsAndBytes, GGUF, and AutoRound), showing that algorithm choice and model size jointly determine robustness. GGUF variants provide the most consistent performance, even at 2-bit precision. Additionally, we quantify the interactions between quantization, decoding hyperparameters, and calibration languages, finding that language-matched calibration offers benefits primarily in low-bit scenarios. Our findings offer actionable insights for deploying multilingual LLMs for machine translation under quantization constraints, especially in low-resource settings.
- Abstract(参考訳): 資源制約のあるハードウェア上での大規模言語モデル(LLM)の展開には量子化が不可欠だが、多言語タスクに対するその意味は未解明のままである。
我々は,1.7Bから70Bパラメータの5つのLLMを用いて,55言語にわたる機械翻訳におけるPTQの大規模評価を行った。
分析の結果,4ビットの量子化は高リソース言語や大規模モデルの翻訳品質を保ちつつも,低リソース言語やタイポロジーに富んだ言語,特に2ビット設定では顕著な劣化が発生することがわかった。
我々は,4つの量子化手法(AWQ,BitsAndBytes,GGUF,AutoRound)を比較し,アルゴリズムの選択とモデルサイズが共にロバスト性を決定することを示した。
GGUFの変種は、2ビットの精度でも最も一貫した性能を提供する。
さらに、量子化、ハイパーパラメータの復号化、キャリブレーション言語間の相互作用を定量化し、言語に適合したキャリブレーションが主にロービットシナリオに利益をもたらすことを発見した。
計算機翻訳用多言語LPMを量子化制約下,特に低リソース環境下でのデプロイに有効であることを示す。
関連論文リスト
- Towards Inclusive NLP: Assessing Compressed Multilingual Transformers across Diverse Language Benchmarks [33.2185998586144]
本研究は、アラビア語、英語、インド語にまたがる多言語および単言語大言語モデル(LLM)の性能をベンチマークする。
発見は言語的多様性と資源の可利用性によって引き起こされる顕著なパフォーマンスの違いを示している。
量子化(4ビットと8ビット)は、効率を向上しながらモデルの精度を維持するのに有効であるが、アグレッシブプルーニングは性能を著しく損なう。
論文 参考訳(メタデータ) (2025-07-25T22:35:10Z) - Domain-Specific Translation with Open-Source Large Language Models: Resource-Oriented Analysis [0.0]
オープンソースの自己回帰型デコーダ専用大言語モデル(LLM)のドメイン固有翻訳性能とタスク指向機械翻訳(MT)モデルとの比較を行った。
実験では,医療領域に焦点をあて,資源利用率の異なる4つの言語方向をカバーした。
論文 参考訳(メタデータ) (2024-12-08T08:54:13Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。