論文の概要: Early-Exit and Instant Confidence Translation Quality Estimation
- arxiv url: http://arxiv.org/abs/2502.14429v1
- Date: Thu, 20 Feb 2025 10:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:06.776484
- Title: Early-Exit and Instant Confidence Translation Quality Estimation
- Title(参考訳): 早期・緊急信頼度翻訳品質評価
- Authors: Vilém Zouhar, Maike Züfle, Beni Egressy, Julius Cheng, Jan Niehues,
- Abstract要約: 本研究では,(1)スケールにおける品質推定のコスト削減,(2)品質推定のための安価な不確実性推定手法の開発,という2つの課題に対処する。
後者に対処するため,従来の手法の性能を若干のコストで一致させる不確実性を考慮した品質評価モデルであるInstant Confidence COMETを導入する。
我々はこれを、初期のモデル層ですでに品質スコアと関連する信頼度を計算できる品質評価モデルであるEarly-Exit COMETに拡張し、計算の早期実行と評価コストの削減を可能にします。
- 参考スコア(独自算出の注目度): 15.68803971605923
- License:
- Abstract: Quality estimation is omnipresent in machine translation, for both evaluation and generation. Unfortunately, quality estimation models are often opaque and computationally expensive, making them impractical to be part of large-scale pipelines. In this work, we tackle two connected challenges: (1) reducing the cost of quality estimation at scale, and (2) developing an inexpensive uncertainty estimation method for quality estimation. To address the latter, we introduce Instant Confidence COMET, an uncertainty-aware quality estimation model that matches the performance of previous approaches at a fraction of their costs. We extend this to Early-Exit COMET, a quality estimation model that can compute quality scores and associated confidences already at early model layers, allowing us to early-exit computations and reduce evaluation costs. We also apply our model to machine translation reranking. We combine Early-Exit COMET with an upper confidence bound bandit algorithm to find the best candidate from a large pool without having to run the full evaluation model on all candidates. In both cases (evaluation and reranking) our methods reduce the required compute by 50% with very little degradation in performance.
- Abstract(参考訳): 品質評価は、評価と生成の両方において、機械翻訳において一様である。
残念なことに、品質推定モデルは不透明で計算コストが高いため、大規模なパイプラインの一部であることは現実的ではない。
本研究では,(1)スケールにおける品質推定のコスト削減,(2)品質推定のための安価な不確実性推定手法の開発という2つの課題に取り組む。
後者に対処するため,従来の手法の性能を若干のコストで一致させる不確実性を考慮した品質評価モデルであるInstant Confidence COMETを導入する。
我々はこれを、初期のモデル層ですでに品質スコアと関連する信頼度を計算できる品質評価モデルであるEarly-Exit COMETに拡張し、計算の早期実行と評価コストの削減を可能にします。
また、機械翻訳に我々のモデルを適用します。
我々は、Early-Exit COMETと高信頼な帯域幅アルゴリズムを組み合わせることで、すべての候補に対して完全な評価モデルを実行することなく、大きなプールから最適な候補を見つける。
どちらの場合も(評価と再評価)、必要な計算量は50%削減され、性能は極めて低下する。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Polyrating: A Cost-Effective and Bias-Aware Rating System for LLM Evaluation [5.653106385738822]
ポリーティング(Polyrating)は、最大後方推定に基づく表現的かつ柔軟な評価システムである。
人間の嗜好に影響を与えるバイアスを検出し定量化し、より公平なモデル比較を保証する。
人的評価のコストを、新しいモデルで最大41%、新しいタスクで最大77%削減することができる。
論文 参考訳(メタデータ) (2024-09-01T11:24:54Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Uncertainty-aware No-Reference Point Cloud Quality Assessment [25.543217625958462]
本研究は,非参照点クラウド品質評価(PCQA)のための最初の確率的アーキテクチャを提案する。
提案手法は条件付き変分オートエンコーダ(AE)を用いて被験者の品質判定をモデル化できる。
実験により,本手法は従来の最先端手法を大きなマージンで模倣し,データセット間実験を行うことを示す。
論文 参考訳(メタデータ) (2024-01-17T02:25:42Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Improving Out-of-Distribution Detection via Epistemic Uncertainty
Adversarial Training [29.4569172720654]
我々は,ドロップアウトアンサンブルによって予測される不確実性の攻撃を組み込んだ,単純な対向訓練手法を開発した。
本手法は,OOD検出性能を標準データ上で向上させる(逆向きではない)とともに,ほぼランダムな推定性能から$geq 0.75$まで,標準化された部分AUCを改善する。
論文 参考訳(メタデータ) (2022-09-05T14:32:19Z) - Balancing Cost and Quality: An Exploration of Human-in-the-loop
Frameworks for Automated Short Answer Scoring [36.58449231222223]
短い回答スコアリング(英: Short answer score、SAS)とは、学習者によって書かれた短いテキストを段階的に評価するタスクである。
本稿では,グルーピングコストを最小化するためのHuman-in-the-loopフレームワークの利用について検討する。
提案手法により,自動スコアリングモデルと人間のグリーマーによる目標スコアリング品質の達成が可能となった。
論文 参考訳(メタデータ) (2022-06-16T16:43:18Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z) - Inducing Predictive Uncertainty Estimation for Face Recognition [102.58180557181643]
顔画像の「マッドペア」から画像品質訓練データを自動的に生成する手法を提案する。
生成したデータを用いて、顔画像の信頼度を推定するために、PCNetと呼ばれる軽量な予測信頼ネットワークを訓練する。
論文 参考訳(メタデータ) (2020-09-01T17:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。