論文の概要: HY-MT1.5 Technical Report
- arxiv url: http://arxiv.org/abs/2512.24092v1
- Date: Tue, 30 Dec 2025 09:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.336479
- Title: HY-MT1.5 Technical Report
- Title(参考訳): HY-MT1.5技術報告
- Authors: Mao Zheng, Zheng Li, Tao Chen, Mingyang Song, Di Wang,
- Abstract要約: HY-MT1.5-1.8BとHY-MT1.5-7Bは、高性能翻訳に適した総合的なトレーニングフレームワークによって開発された新しい機械翻訳モデルである。
本手法は, 汎用およびMT指向のプレトレーニング, 微調整, オンライン蒸留, 強化学習を統合した多段階パイプラインを編成する。
- 参考スコア(独自算出の注目度): 24.77479897240016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we introduce our latest translation models, HY-MT1.5-1.8B and HY-MT1.5-7B, a new family of machine translation models developed through a holistic training framework tailored for high-performance translation. Our methodology orchestrates a multi-stage pipeline that integrates general and MT-oriented pre-training, supervised fine-tuning, on-policy distillation, and reinforcement learning. HY-MT1.5-1.8B, the 1.8B-parameter model demonstrates remarkable parameter efficiency, comprehensively outperforming significantly larger open-source baselines (e.g., Tower-Plus-72B, Qwen3-32B) and mainstream commercial APIs (e.g., Microsoft Translator, Doubao Translator) in standard Chinese-foreign and English-foreign tasks. It achieves approximately 90% of the performance of ultra-large proprietary models such as Gemini-3.0-Pro, while marginally trailing Gemini-3.0-Pro on WMT25 and Mandarin-minority language benchmarks, it maintains a substantial lead over other competing models. Furthermore, HY-MT1.5-7B establishes a new state-of-the-art for its size class, achieving 95% of Gemini-3.0-Pro's performance on Flores-200 and surpassing it on the challenging WMT25 and Mandarin-minority language test sets. Beyond standard translation, the HY-MT1.5 series supports advanced constraints, including terminology intervention, context-aware translation, and format preservation. Extensive empirical evaluations confirm that both models offer highly competitive, robust solutions for general and specialized translation tasks within their respective parameter scales.
- Abstract(参考訳): 本稿では,最新の翻訳モデルHY-MT1.5-1.8BとHY-MT1.5-7Bを紹介する。
本手法は, 汎用およびMT指向のプレトレーニング, 微調整, オンライン蒸留, 強化学習を統合した多段階パイプラインを編成する。
HY-MT1.5-1.8Bは、1.8Bパラメータモデルであり、非常に大きなオープンソースベースライン(例: Tower-Plus-72B、Qwen3-32B、例: Microsoft Translator、Doubao Translator)と主要な商用API(例: Microsoft Translator、Doubao Translator)を標準の中国語と英語の対外タスクで総合的に上回っている。
ジェミニ3.0-Proのような超大型のプロプライエタリなモデルの性能の約90%を達成し、WMT25やマンダリンマイノリティ言語ベンチマークではゲミニ3.0-Proをわずかに上回っているが、他の競合モデルよりも大きくリードしている。
さらにHY-MT1.5-7Bは、Gemini-3.0-Pro のFlores-200 における性能の95%を達成し、挑戦的な WMT25 と Mandarin-minority 言語テストセットで上回っている。
HY-MT1.5シリーズは、標準翻訳以外にも、用語の介入、文脈対応翻訳、フォーマット保存といった高度な制約をサポートしている。
広範囲にわたる経験的評価により、どちらのモデルも、それぞれのパラメータスケール内での一般および専門的な翻訳タスクに対して、高い競争力と堅牢なソリューションを提供することを確認した。
関連論文リスト
- Hunyuan-MT Technical Report [20.87433605086714]
Hunyuan-MT-7Bは33の主要言語にまたがる双方向翻訳をサポートしている。
Hunyuan-MT-Chimera-7Bは、スローシンキングモードにインスパイアされた翻訳モデルである。
論文 参考訳(メタデータ) (2025-09-05T16:11:05Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models [27.777372498182864]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (2023-09-20T22:53:15Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Zero-shot Cross-lingual Transfer of Neural Machine Translation with
Multilingual Pretrained Encoders [74.89326277221072]
多言語プリトレーニング済みエンコーダによるNMTモデルのクロスリンガル転送を改善する方法は、未検討です。
このタスクのシンプルで効果的なモデルであるSixTを提案します。
私達のモデルはCRISSおよびm2m-100より多くの英語テストセットでよりよい性能を達成します。
論文 参考訳(メタデータ) (2021-04-18T07:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。