論文の概要: xCOMET-lite: Bridging the Gap Between Efficiency and Quality in Learned MT Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2406.14553v1
- Date: Thu, 20 Jun 2024 17:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:23:23.999150
- Title: xCOMET-lite: Bridging the Gap Between Efficiency and Quality in Learned MT Evaluation Metrics
- Title(参考訳): xCOMET-lite:学習したMT評価指標の効率と品質のギャップを埋める
- Authors: Daniil Larionov, Mikhail Seleznyov, Vasiliy Viskov, Alexander Panchenko, Steffen Eger,
- Abstract要約: xCOMETのような最先端の機械翻訳評価指標は、人間の判断と高い相関性を得るが、大きなエンコーダに依存している。
我々は, 蒸留, 定量化, プルーニング技術を用いて, 効率的なxCOMET代替品を作成する。
量子化により,xCOMETは3倍の圧縮が可能であり,品質劣化は生じない。
- 参考スコア(独自算出の注目度): 69.14652127492438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art trainable machine translation evaluation metrics like xCOMET achieve high correlation with human judgment but rely on large encoders (up to 10.7B parameters), making them computationally expensive and inaccessible to researchers with limited resources. To address this issue, we investigate whether the knowledge stored in these large encoders can be compressed while maintaining quality. We employ distillation, quantization, and pruning techniques to create efficient xCOMET alternatives and introduce a novel data collection pipeline for efficient black-box distillation. Our experiments show that, using quantization, xCOMET can be compressed up to three times with no quality degradation. Additionally, through distillation, we create an xCOMET-lite metric, which has only 2.6% of xCOMET-XXL parameters, but retains 92.1% of its quality. Besides, it surpasses strong small-scale metrics like COMET-22 and BLEURT-20 on the WMT22 metrics challenge dataset by 6.4%, despite using 50% fewer parameters. All code, dataset, and models are available online.
- Abstract(参考訳): xCOMETのような最先端のトレーニング可能な機械翻訳評価指標は、人間の判断と高い相関性を持つが、大きなエンコーダ(最大10.7Bパラメータ)に依存しており、計算コストが高く、限られたリソースを持つ研究者にはアクセスできない。
この問題に対処するために,これらの大きなエンコーダに格納されている知識を,品質を維持しつつ圧縮できるかどうかを検討する。
我々は, 蒸留, 定量化, プルーニング技術を用いて, 効率的なxCOMET代替品を作成し, ブラックボックス蒸留のための新しいデータ収集パイプラインを導入する。
量子化により,xCOMETは3倍の圧縮が可能であり,品質劣化は生じない。
さらに、蒸留により、xCOMET-XXLパラメータの2.6%しか持たないxCOMET-liteメートル法を作成するが、品質は92.1%を維持している。
さらに、パラメータが50%少ないにもかかわらず、WMT22メトリクスのデータセットに挑戦するCOMET-22やBLEURT-20のような強力な小規模メトリクスを6.4%上回る。
すべてのコード、データセット、モデルがオンラインで利用可能だ。
関連論文リスト
- MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task [21.490930342296256]
We present the MetricX-24 submits to the WMT24 Metrics Shared Task。
私たちの主な提案は、ハイブリッド参照ベース/フリーメトリックです。
WMT23 MQM 評価では MetricX-23 よりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2024-10-04T23:52:28Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - Elucidating the Design Space of Dataset Condensation [23.545641118984115]
データ中心学習の概念であるデータセット凝縮は、オリジナルのデータセットから合成バージョンに重要な属性を効率的に転送する。
本稿では,ソフトカテゴリ対応マッチングの実装のような,具体的な効果的な戦略を含む包括的な設計フレームワークを提案する。
我々のテストでは、ECCは最先端の精度を達成し、圧縮比0.78%に相当するResNet-18モデルでImageNet-1kで48.6%に達した。
論文 参考訳(メタデータ) (2024-04-21T18:19:27Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Examining Large Pre-Trained Language Models for Machine Translation:
What You Don't Know About It [11.571189144910521]
大規模言語モデル (extra-large language model, xLPLMs) は、より小型のPLMよりも優れた性能を主張するために提案されている。
本研究では,xLPLM が小サイズの PLM よりもはるかに優れているかどうかを,ドメイン固有の MT に向けて微調整する。
論文 参考訳(メタデータ) (2022-09-15T16:12:26Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - Efficient Inference for Multilingual Neural Machine Translation [60.10996883354372]
我々は、その品質を劣化させることなく、多言語NMTを推論で高速にする方法をいくつか検討する。
実験により,浅いデコーダと語彙フィルタを組み合わせることで,翻訳品質を損なうことなく2倍以上の高速な推論が可能であることが確認された。
論文 参考訳(メタデータ) (2021-09-14T13:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。