論文の概要: Classification-based Quality Estimation: Small and Efficient Models for
Real-world Applications
- arxiv url: http://arxiv.org/abs/2109.08627v1
- Date: Fri, 17 Sep 2021 16:14:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 17:07:54.561363
- Title: Classification-based Quality Estimation: Small and Efficient Models for
Real-world Applications
- Title(参考訳): 分類に基づく品質推定: 実世界のアプリケーションのための小さく効率的なモデル
- Authors: Shuo Sun, Ahmed El-Kishky, Vishrav Chaudhary, James Cross, Francisco
Guzm\'an, Lucia Specia
- Abstract要約: 機械翻訳の文レベル品質評価(QE)は、伝統的に回帰タスクとして定式化されている。
近年のQEモデルでは, 人的判断と既往の相関が達成されている。
我々はQEのモデル圧縮技術を評価し、他のNLPタスクで人気があるにもかかわらず、この回帰環境では性能が劣っていることを発見した。
- 参考スコア(独自算出の注目度): 29.380675447523817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence-level Quality estimation (QE) of machine translation is
traditionally formulated as a regression task, and the performance of QE models
is typically measured by Pearson correlation with human labels. Recent QE
models have achieved previously-unseen levels of correlation with human
judgments, but they rely on large multilingual contextualized language models
that are computationally expensive and make them infeasible for real-world
applications. In this work, we evaluate several model compression techniques
for QE and find that, despite their popularity in other NLP tasks, they lead to
poor performance in this regression setting. We observe that a full model
parameterization is required to achieve SoTA results in a regression task.
However, we argue that the level of expressiveness of a model in a continuous
range is unnecessary given the downstream applications of QE, and show that
reframing QE as a classification problem and evaluating QE models using
classification metrics would better reflect their actual performance in
real-world applications.
- Abstract(参考訳): 機械翻訳の文レベル品質評価(QE)は、伝統的に回帰タスクとして定式化されており、QEモデルの性能は、典型的にはピアソンと人間のラベルの相関によって測定される。
近年のQEモデルは、人間の判断と従来見られなかったレベルの相関を達成しているが、計算コストが高く、現実のアプリケーションでは利用できないような、多言語対応の言語モデルに依存している。
本研究では,QE のモデル圧縮手法の評価を行い,他の NLP タスクに人気があるにもかかわらず,この回帰環境では性能が劣ることを示した。
回帰タスクにおいてsoma結果を達成するためには,全モデルパラメータ化が必要となる。
しかしながら、qeの下流への応用を考えると、連続範囲でのモデルの表現力のレベルは不要であり、qeを分類問題として再フレーミングし、分類メトリクスを用いたqeモデルを評価することは、実世界のアプリケーションにおける実際のパフォーマンスをよりよく反映することを示している。
関連論文リスト
- Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - Translation Error Detection as Rationale Extraction [36.616561917049076]
本稿では,現在最先端の文レベルQEモデルの振る舞いについて検討し,翻訳誤りを検出するために実際に説明が利用できることを示す。
単語レベルQEのための新しい半教師付き手法を導入し、(ii)特徴属性の妥当性を評価するための新しいベンチマークとしてQEタスクを提案する。
論文 参考訳(メタデータ) (2021-08-27T09:35:14Z) - Knowledge Distillation for Quality Estimation [79.51452598302934]
QE(Quality Estimation)は、参照翻訳のない機械翻訳の品質を自動的に予測するタスクである。
QEの最近の成功は、非常に大きなモデルが印象的な結果をもたらす多言語事前学習表現の使用に起因している。
提案手法は, データ拡張と組み合わせて, 8倍のパラメータを持つ蒸留前学習表現と競合する軽量QEモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-01T12:36:21Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Study on the Assessment of the Quality of Experience of Streaming Video [117.44028458220427]
本稿では,ストリーミング映像のQoEの主観的推定に対する様々な客観的要因の影響について検討する。
本論文では標準的および手作り的特徴を示し,その相関とp値を示す。
SQoE-IIIデータベースは、これまでで最大の、そして最も現実的なデータベースだ。
論文 参考訳(メタデータ) (2020-12-08T18:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。