論文の概要: How Small Can You Go? Compact Language Models for On-Device Critical Error Detection in Machine Translation
- arxiv url: http://arxiv.org/abs/2511.09748v1
- Date: Fri, 14 Nov 2025 01:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.46074
- Title: How Small Can You Go? Compact Language Models for On-Device Critical Error Detection in Machine Translation
- Title(参考訳): どのくらい小さくできるのか? 機械翻訳におけるオンデバイスクリティカルエラー検出のためのコンパクト言語モデル
- Authors: Muskaan Chopra, Lorenz Sparrenberg, Sarthak Khanna, Rafet Sifa,
- Abstract要約: We benchmark sub-2B model (LFM2-350M, Qwen-3-0.6B/1.7B, Llama-3.2-1B-Instruct, Gemma-3-1B) across WMT21, WMT22, SynCED-EnDe-2025。
我々のフレームワークはプロンプトを標準化し、軽量なロジットバイアス校正と多数決を適用し、セマンティック品質(MCC, F1-ERR/F1-NOT)と計算メトリクス(VRAM,レイテンシ,スループット)の両方を報告する。
Gemma-3-1Bは最高の品質と効率のトレードオフを提供します。
- 参考スコア(独自算出の注目度): 1.3288901827225499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at evaluating machine translation (MT), but their scale and cost hinder deployment on edge devices and in privacy-sensitive workflows. We ask: how small can you get while still detecting meaning-altering translation errors? Focusing on English->German Critical Error Detection (CED), we benchmark sub-2B models (LFM2-350M, Qwen-3-0.6B/1.7B, Llama-3.2-1B-Instruct, Gemma-3-1B) across WMT21, WMT22, and SynCED-EnDe-2025. Our framework standardizes prompts, applies lightweight logit-bias calibration and majority voting, and reports both semantic quality (MCC, F1-ERR/F1-NOT) and compute metrics (VRAM, latency, throughput). Results reveal a clear sweet spot around one billion parameters: Gemma-3-1B provides the best quality-efficiency trade-off, reaching MCC=0.77 with F1-ERR=0.98 on SynCED-EnDe-2025 after merged-weights fine-tuning, while maintaining 400 ms single-sample latency on a MacBook Pro M4 Pro (24 GB). At larger scale, Qwen-3-1.7B attains the highest absolute MCC (+0.11 over Gemma) but with higher compute cost. In contrast, ultra-small models (0.6B) remain usable with few-shot calibration yet under-detect entity and number errors. Overall, compact, instruction-tuned LLMs augmented with lightweight calibration and small-sample supervision can deliver trustworthy, on-device CED for MT, enabling private, low-cost error screening in real-world translation pipelines. All datasets, prompts, and scripts are publicly available at our GitHub repository.
- Abstract(参考訳): 大規模言語モデル(LLM)は、機械翻訳(MT)の評価において優れているが、その規模とコストは、エッジデバイスやプライバシに敏感なワークフローへのデプロイを妨げる。
意味を変える翻訳エラーを検知しながら、どのくらい小さくできるのか?
WMT21、WMT22、SynCED-EnDe-2025のサブ2Bモデル(LFM2-350M、Qwen-3-0.6B/1.7B、Llama-3.2-1B-Instruct、Gemma-3-1B)をベンチマークした。
我々のフレームワークはプロンプトを標準化し、軽量なロジットバイアス校正と多数決を適用し、セマンティック品質(MCC, F1-ERR/F1-NOT)と計算メトリクス(VRAM,レイテンシ,スループット)の両方を報告する。
Gemma-3-1Bは最高の品質効率トレードオフを提供し、SynCED-EnDe-2025でF1-ERR=0.98でMCC=0.77に達した。
大規模では、Qwen-3-1.7B は最高絶対値 MCC (+0.11 over Gemma) に達するが、計算コストは高い。
対照的に、超小型モデル (0.6B) は、数発のキャリブレーションしか使用できないが、検出できないエンティティと数値エラーで使用することができる。
全体として、軽量キャリブレーションと小型の監視機能を備えたコンパクトな命令調整型LLMは、MTのための信頼性の高いオンデバイスCEDを提供することができ、現実世界の翻訳パイプラインにおいて、プライベートで低コストなエラースクリーニングを可能にする。
すべてのデータセット、プロンプト、スクリプトは、GitHubリポジトリで公開されています。
関連論文リスト
- Evaluating LLMs and Prompting Strategies for Automated Hardware Diagnosis from Textual User-Reports [0.43981305860983716]
大きな言語モデル(LLM)はそのような問題に対処する上で有望であることを示している。
本研究では,4つのプロンプト戦略を用いて,27のオープンソースモデル(1B-72Bパラメータ)と2つのプロプライエタリLSMを評価した。
3つのモデルはサイズと性能のバランスが良く、Mistral-small-24b-instructとllama-3.2-1b-instructと gemma-2-2b-itである。
論文 参考訳(メタデータ) (2025-07-01T13:46:00Z) - Grammatical Error Correction for Low-Resource Languages: The Case of Zarma [8.40484790921164]
文法的誤り訂正は、テキストの品質と可読性を改善することを目的としている。
西アフリカで500万人以上が話していたGEC for Zarmaについて検討する。
ルールベース手法,機械翻訳(MT)モデル,大規模言語モデルという3つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-10-20T23:51:36Z) - Automated Multi-Language to English Machine Translation Using Generative Pre-Trained Transformers [0.8192907805418583]
本研究では、局所生成事前学習変換(GPT)モデルを用いて、自動ゼロショットブラックボックス、文賢、多言語翻訳を英語テキストに変換する。
我々は、50の異なる非英語言語を英語に翻訳するためのHuggingface LLMリポジトリから、カスタムの微調整なしで16の異なるオープンソースGPTモデルをベンチマークした。
ベンチマークメトリクスは言語翻訳の正確さ、BLEU、GLEU、METEOR、chrFテキストの重複測定、各文翻訳のウォールクロック時間などである。
論文 参考訳(メタデータ) (2024-04-23T02:19:35Z) - How Far Can 100 Samples Go? Unlocking Overall Zero-Shot Multilingual
Translation via Tiny Multi-Parallel Data [10.286714403840355]
リソースを消費する一般的な解決策は、トレーニングコーパスに可能な限り多くの関連する翻訳方向を追加することである。
英語中心のモデルでは、非常に少量のマルチ並列データで簡単に微調整することで驚くほど大きなゼロショット改善が達成できることを示す。
論文 参考訳(メタデータ) (2024-01-22T23:55:00Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - SMaLL-100: Introducing Shallow Multilingual Machine Translation Model
for Low-Resource Languages [102.50127671423752]
本稿では,100言語をカバーするM2M-100(12B)機械翻訳モデルの蒸留版であるSMaLL-100を紹介する。
我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。
我々のモデルはM2M-100(1.2B)に匹敵する結果を得るが、推論では3.6倍小さく、4.3倍高速である。
論文 参考訳(メタデータ) (2022-10-20T22:32:29Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。