Fugu-MT 論文翻訳(概要): Toward More Effective Human Evaluation for Machine Translation

論文の概要: Toward More Effective Human Evaluation for Machine Translation

arxiv url: http://arxiv.org/abs/2204.05307v1
Date: Mon, 11 Apr 2022 17:59:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-12 14:52:19.371015
Title: Toward More Effective Human Evaluation for Machine Translation
Title（参考訳）: より効果的な機械翻訳評価を目指して
Authors: Bel\'en Sald\'ias, George Foster, Markus Freitag, Qijun Tan
Abstract要約: 注釈を付さなければならないテキストセグメントの数を減らして、コストを削減するための簡単な方法を検討する。サンプリング手法を用いて,文書のメンバシップと自動測定値から得られる情報が,推定値の改善に有効であることを実証する。
参考スコア（独自算出の注目度）: 8.961948751420541
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Improvements in text generation technologies such as machine translation have necessitated more costly and time-consuming human evaluation procedures to ensure an accurate signal. We investigate a simple way to reduce cost by reducing the number of text segments that must be annotated in order to accurately predict a score for a complete test set. Using a sampling approach, we demonstrate that information from document membership and automatic metrics can help improve estimates compared to a pure random sampling baseline. We achieve gains of up to 20% in average absolute error by leveraging stratified sampling and control variates. Our techniques can improve estimates made from a fixed annotation budget, are easy to implement, and can be applied to any problem with structure similar to the one we study.
Abstract（参考訳）: 機械翻訳などのテキスト生成技術の改善は、正確な信号を保証するためにコストと時間を要する。完全テストセットのスコアを正確に予測するために,アノテートしなければならないテキストセグメント数を削減し,コストを削減するための簡単な方法を検討する。サンプリング手法を用いて, 文書メンバシップと自動メトリクスからの情報は, 純粋なランダムサンプリングベースラインと比較して, 推定精度の向上に役立つことを実証する。我々は,階層化サンプリングと制御変動を利用して,平均絶対誤差の最大20%のゲインを達成する。提案手法は,固定アノテーション予算による見積を改善でき,実装が容易であり,検討した手法と同様の構造を持つ任意の問題に適用できる。

関連論文リスト

Cost-Optimal Active AI Model Evaluation [71.2069549142394]
生成AIシステムの開発には、継続的な評価、データ取得、アノテーションが必要である。我々は、安価だがしばしば不正確で弱いレーダの使用を積極的にバランスさせる新しいコスト認識手法を開発した。我々は、弱者と強者の間で所定のアノテーション予算を割り当てるためのコスト最適化政策のファミリーを導出する。
論文参考訳（メタデータ） (2025-06-09T17:14:41Z)
Acquiring Better Load Estimates by Combining Anomaly and Change Point Detection in Power Grid Time-series Measurements [0.49478969093606673]
提案手法は,可視データに対する堅牢かつ一般化可能な性能を確保しつつ,解釈可能性の優先順位付けを行う。その結果, 濾過が適用されない場合に, 洗浄電位が明らかになることが示唆された。我々の方法論の解釈可能性によって、重要なインフラ計画に特に適しています。
論文参考訳（メタデータ） (2024-05-25T10:15:51Z)
AutoEval Done Right: Using Synthetic Data for Model Evaluation [79.01454261157525]
この目的のために,効率的な統計的アルゴリズムを提案する。これらのアルゴリズムは、GPT-4の実験において、有効にラベル付けされたサンプルサイズを最大50%増加させる。
論文参考訳（メタデータ） (2024-03-09T02:47:11Z)
Correction of Errors in Preference Ratings from Automated Metrics for Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文参考訳（メタデータ） (2023-06-06T17:09:29Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
On the Effectiveness of Automated Metrics for Text Generation Systems [4.661309379738428]
本稿では,不完全な自動計測や不十分な大きさのテストセットなど,不確実性の原因を取り入れた理論を提案する。この理論には、テキスト生成システムの一連の性能を確実に区別するために必要なサンプル数を決定するなど、実用的な応用がある。
論文参考訳（メタデータ） (2022-10-24T08:15:28Z)
On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文参考訳（メタデータ） (2022-10-22T22:12:06Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)
Using Sampling to Estimate and Improve Performance of Automated Scoring Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文参考訳（メタデータ） (2021-11-17T05:00:51Z)
A Framework for Sample Efficient Interval Estimation with Control Variates [94.32811054797148]
確率変数の平均に対して信頼区間を推定する問題を考察する。ある条件下では、既存の推定アルゴリズムと比較して効率が向上している。
論文参考訳（メタデータ） (2020-06-18T05:42:30Z)
The Simulator: Understanding Adaptive Sampling in the Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文参考訳（メタデータ） (2017-02-16T23:42:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。