Fugu-MT 論文翻訳(概要): On the Effectiveness of Automated Metrics for Text Generation Systems

論文の概要: On the Effectiveness of Automated Metrics for Text Generation Systems

arxiv url: http://arxiv.org/abs/2210.13025v1
Date: Mon, 24 Oct 2022 08:15:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 13:47:25.922383
Title: On the Effectiveness of Automated Metrics for Text Generation Systems
Title（参考訳）: テキスト生成システムにおける自動メトリクスの有効性について
Authors: Pius von D\"aniken, Jan Deriu, Don Tuggener, Mark Cieliebak
Abstract要約: 本稿では,不完全な自動計測や不十分な大きさのテストセットなど,不確実性の原因を取り入れた理論を提案する。この理論には、テキスト生成システムの一連の性能を確実に区別するために必要なサンプル数を決定するなど、実用的な応用がある。
参考スコア（独自算出の注目度）: 4.661309379738428
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A major challenge in the field of Text Generation is evaluation because we lack a sound theory that can be leveraged to extract guidelines for evaluation campaigns. In this work, we propose a first step towards such a theory that incorporates different sources of uncertainty, such as imperfect automated metrics and insufficiently sized test sets. The theory has practical applications, such as determining the number of samples needed to reliably distinguish the performance of a set of Text Generation systems in a given setting. We showcase the application of the theory on the WMT 21 and Spot-The-Bot evaluation data and outline how it can be leveraged to improve the evaluation protocol regarding the reliability, robustness, and significance of the evaluation outcome.
Abstract（参考訳）: テキスト生成の分野での大きな課題は、評価キャンペーンのガイドラインを抽出するために活用できる音理論が欠けているため、評価である。本研究では,不完全な自動測定値や不十分な大きさのテストセットなど,不確実性の異なる要因を取り入れた理論を最初に提案する。この理論は、所定の設定における一連のテキスト生成システムの性能を確実に区別するために必要なサンプル数を決定するような実用的な応用がある。本稿では,WMT 21 と Spot-The-Bot の評価データに対する理論の適用について概説し,信頼性,堅牢性,評価結果の意義に関する評価プロトコルの改善について概説する。

関連論文リスト

Socio-Emotional Response Generation: A Human Evaluation Protocol for LLM-Based Conversational Systems [9.101091541480434]
本稿では、応答生成の前に社会情緒戦略を計画する中間段階を含むニューラルアーキテクチャを提案する。本研究は, 予測された戦略ラベルの列を予測し, このシーケンスを用いて応答を生成することにより, 直接的なエンドツーエンド生成方式よりも優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-11-26T08:15:36Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
Measuring What Matters: Intrinsic Distance Preservation as a Robust Metric for Embedding Quality [0.0]
本稿では,組み込み品質を評価するための固有距離保存評価(IDPE)手法を提案する。 IDPEは、元の空間と埋め込み空間のデータポイント間のマハラノビス距離の保存に基づいている。以上の結果から,IDPEは様々なシナリオにまたがって,より包括的で信頼性の高い組込み品質評価を提供することが示された。
論文参考訳（メタデータ） (2024-07-31T13:26:09Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Correction of Errors in Preference Ratings from Automated Metrics for Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文参考訳（メタデータ） (2023-06-06T17:09:29Z)
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-29T14:55:20Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)
GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。 10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文参考訳（メタデータ） (2020-10-24T08:30:20Z)
Perception Score, A Learned Metric for Open-ended Text Generation Evaluation [62.7690450616204]
本稿では,新しい,強力な学習ベース評価尺度を提案する。本手法は,単語の重なり合いなどの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を測定し,一律に得点する。
論文参考訳（メタデータ） (2020-08-07T10:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。