論文の概要: Toward More Effective Human Evaluation for Machine Translation
- arxiv url: http://arxiv.org/abs/2204.05307v1
- Date: Mon, 11 Apr 2022 17:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-04-12 14:52:19.371015
- Title: Toward More Effective Human Evaluation for Machine Translation
- Title(参考訳): より効果的な機械翻訳評価を目指して
- Authors: Bel\'en Sald\'ias, George Foster, Markus Freitag, Qijun Tan
- Abstract要約: 注釈を付さなければならないテキストセグメントの数を減らして、コストを削減するための簡単な方法を検討する。
サンプリング手法を用いて,文書のメンバシップと自動測定値から得られる情報が,推定値の改善に有効であることを実証する。
- 参考スコア(独自算出の注目度): 8.961948751420541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improvements in text generation technologies such as machine translation have
necessitated more costly and time-consuming human evaluation procedures to
ensure an accurate signal. We investigate a simple way to reduce cost by
reducing the number of text segments that must be annotated in order to
accurately predict a score for a complete test set. Using a sampling approach,
we demonstrate that information from document membership and automatic metrics
can help improve estimates compared to a pure random sampling baseline. We
achieve gains of up to 20% in average absolute error by leveraging stratified
sampling and control variates. Our techniques can improve estimates made from a
fixed annotation budget, are easy to implement, and can be applied to any
problem with structure similar to the one we study.
- Abstract(参考訳): 機械翻訳などのテキスト生成技術の改善は、正確な信号を保証するためにコストと時間を要する。
完全テストセットのスコアを正確に予測するために,アノテートしなければならないテキストセグメント数を削減し,コストを削減するための簡単な方法を検討する。
サンプリング手法を用いて, 文書メンバシップと自動メトリクスからの情報は, 純粋なランダムサンプリングベースラインと比較して, 推定精度の向上に役立つことを実証する。
我々は,階層化サンプリングと制御変動を利用して,平均絶対誤差の最大20%のゲインを達成する。
提案手法は,固定アノテーション予算による見積を改善でき,実装が容易であり,検討した手法と同様の構造を持つ任意の問題に適用できる。
関連論文リスト
- FactSim: Fact-Checking for Opinion Summarization [0.0]
テキスト要約タスクにおける生成人工知能(GenAI)のより包括的で正確な評価手法の必要性について検討する。
意見項目の集合から機械生成要約を比較するために自動メトリクスを利用する従来の手法は、大きな言語モデル(LLM)によって導入されたパラダイムシフトによって制限が示されてきた。
本稿では,このような要約の事実整合性を評価するための,新しい完全自動化手法を提案する。
論文 参考訳(メタデータ) (2026-02-09T14:21:19Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Decoding-Free Sampling Strategies for LLM Marginalization [15.214953630908477]
現代の言語モデルは、モデルサイズ、推論速度、語彙カバレッジの間のトレードオフを実現するために、サブワードトークン化されたテキストで機能する。
我々はデコード不要なサンプリング戦略について検討し、その代わりにモデルやトークン化ツールに依存しない非常に安価なサンプリング戦略に完全に依存する。
論文 参考訳(メタデータ) (2025-10-23T04:50:14Z) - Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - Guided Star-Shaped Masked Diffusion [11.965970427956684]
本稿では,事前学習モデルを用いた新しいサンプリングアルゴリズムを提案する。
本手法は星型パラダイムを用いて生成過程を再構成する。
学習可能な再タスクスケジューラで拡張し、潜在的なエラーをインテリジェントに識別し、修正します。
論文 参考訳(メタデータ) (2025-10-09T15:53:51Z) - Cost-Optimal Active AI Model Evaluation [71.2069549142394]
生成AIシステムの開発には、継続的な評価、データ取得、アノテーションが必要である。
我々は、安価だがしばしば不正確で弱いレーダの使用を積極的にバランスさせる新しいコスト認識手法を開発した。
我々は、弱者と強者の間で所定のアノテーション予算を割り当てるためのコスト最適化政策のファミリーを導出する。
論文 参考訳(メタデータ) (2025-06-09T17:14:41Z) - Acquiring Better Load Estimates by Combining Anomaly and Change Point Detection in Power Grid Time-series Measurements [0.49478969093606673]
提案手法は,可視データに対する堅牢かつ一般化可能な性能を確保しつつ,解釈可能性の優先順位付けを行う。
その結果, 濾過が適用されない場合に, 洗浄電位が明らかになることが示唆された。
我々の方法論の解釈可能性によって、重要なインフラ計画に特に適しています。
論文 参考訳(メタデータ) (2024-05-25T10:15:51Z) - AutoEval Done Right: Using Synthetic Data for Model Evaluation [79.01454261157525]
この目的のために,効率的な統計的アルゴリズムを提案する。
これらのアルゴリズムは、GPT-4の実験において、有効にラベル付けされたサンプルサイズを最大50%増加させる。
論文 参考訳(メタデータ) (2024-03-09T02:47:11Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - On the Effectiveness of Automated Metrics for Text Generation Systems [4.661309379738428]
本稿では,不完全な自動計測や不十分な大きさのテストセットなど,不確実性の原因を取り入れた理論を提案する。
この理論には、テキスト生成システムの一連の性能を確実に区別するために必要なサンプル数を決定するなど、実用的な応用がある。
論文 参考訳(メタデータ) (2022-10-24T08:15:28Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - A Framework for Sample Efficient Interval Estimation with Control
Variates [94.32811054797148]
確率変数の平均に対して信頼区間を推定する問題を考察する。
ある条件下では、既存の推定アルゴリズムと比較して効率が向上している。
論文 参考訳(メタデータ) (2020-06-18T05:42:30Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。