論文の概要: Reproducing the Metric-Based Evaluation of a Set of Controllable Text Generation Techniques
- arxiv url: http://arxiv.org/abs/2405.07875v1
- Date: Mon, 13 May 2024 16:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 12:56:21.410395
- Title: Reproducing the Metric-Based Evaluation of a Set of Controllable Text Generation Techniques
- Title(参考訳): 制御可能なテキスト生成手法のメトリクスベース評価の再現
- Authors: Michela Lorandi, Anya Belz,
- Abstract要約: 計量に基づく評価の再実行は、人間による評価よりも、より簡単で、結果がより近くなるべきである。
しかし、このような評価の再実行は、必ずしも元の結果と同じ結果を生成するわけではなく、元の成果の報告における誤りを明らかにすることができる。
- 参考スコア(独自算出の注目度): 5.011488335517782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rerunning a metric-based evaluation should be more straightforward, and results should be closer, than in a human-based evaluation, especially where code and model checkpoints are made available by the original authors. As this report of our efforts to rerun a metric-based evaluation of a set of single-attribute and multiple-attribute controllable text generation (CTG) techniques shows however, such reruns of evaluations do not always produce results that are the same as the original results, and can reveal errors in the reporting of the original work.
- Abstract(参考訳): メトリクスベースの評価の再実行は、人間ベースの評価、特にオリジナルの著者によってコードとモデルチェックポイントが利用可能になる場合よりも、より簡単で、結果がより近いべきである。
本報告では, 単一属性と多属性制御可能なテキスト生成(CTG)手法のメトリクスに基づく評価を再現する試みについて述べるが, このような評価の再実行が必ずしも元の結果と同じ結果を生成するとは限らないことを示し, 元の成果の報告における誤りを明らかにすることができる。
関連論文リスト
- CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - Spurious Correlations in Reference-Free Evaluation of Text Generation [35.80256755393739]
本研究では,要約とダイアログ生成の基準フリー評価指標が,単語重複,パープレキシティ,長さなどの指標と急激な相関に依拠していることを示す。
評価指標を明示的に設計し,参照不要な評価の急激な特徴を避けることで,これらの誤差を軽減できることを実証する。
論文 参考訳(メタデータ) (2022-04-21T05:32:38Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - CTRLEval: An Unsupervised Reference-Free Metric for Evaluating
Controlled Text Generation [85.03709740727867]
制御されたテキスト生成モデルを評価するために,教師なし参照自由度であるEvalを提案する。
Evalは、事前訓練された言語モデルから生成確率をモデルトレーニングなしで組み立てる。
実験の結果,我々の測定値は他の基準値よりも人間の判断と高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2022-04-02T13:42:49Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - CLEval: Character-Level Evaluation for Text Detection and Recognition
Tasks [18.25936871944743]
既存の評価指標は、テキストの検出と認識方法の公正で信頼性の高い比較を提供していない。
文字がテキストの重要な要素であるという事実に基づいて,文字レベル評価尺度(CLEval)を提案する。
CLEvalは、検出と認識と、各モジュールに対するエンドパフォーマンスの観点からの個々の評価からなる、エンド・ツー・エンドの結果のきめ細かい評価を提供する。
論文 参考訳(メタデータ) (2020-06-11T08:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。