論文の概要: Perception Score, A Learned Metric for Open-ended Text Generation
Evaluation
- arxiv url: http://arxiv.org/abs/2008.03082v2
- Date: Tue, 18 Aug 2020 23:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 00:36:22.951172
- Title: Perception Score, A Learned Metric for Open-ended Text Generation
Evaluation
- Title(参考訳): オープンエンドテキスト生成評価のための学習指標Perception Score
- Authors: Jing Gu, Qingyang Wu, Zhou Yu
- Abstract要約: 本稿では,新しい,強力な学習ベース評価尺度を提案する。
本手法は,単語の重なり合いなどの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を測定し,一律に得点する。
- 参考スコア(独自算出の注目度): 62.7690450616204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation for open-ended natural language generation tasks remains
a challenge. Existing metrics such as BLEU show a low correlation with human
judgment. We propose a novel and powerful learning-based evaluation metric:
Perception Score. The method measures the overall quality of the generation and
scores holistically instead of only focusing on one evaluation criteria, such
as word overlapping. Moreover, it also shows the amount of uncertainty about
its evaluation result. By connecting the uncertainty, Perception Score gives a
more accurate evaluation for the generation system. Perception Score provides
state-of-the-art results on two conditional generation tasks and two
unconditional generation tasks.
- Abstract(参考訳): オープンエンド自然言語生成タスクの自動評価は依然として課題である。
BLEUのような既存の指標は人間の判断と相関が低い。
本稿では,新しい,強力な学習ベース評価尺度を提案する。
本手法は,単語重複などの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を計測し,一律に得点する。
また,評価結果の不確実性の量も示す。
不確かさを結びつけることで、知覚スコアは生成システムのより正確な評価を与える。
Perception Scoreは2つの条件生成タスクと2つの条件生成タスクに対して、最先端の結果を提供する。
関連論文リスト
- Erasing Conceptual Knowledge from Language Models [24.63143961814566]
言語記憶の消去(英語: Erasure of Language Memory, ELM)は、無実性、シームレス性、特異性を中心とした評価パラダイムである。
ELMはターゲットの低ランク更新を使用して、消去された概念の出力分布を変更する。
ELMのバイオセキュリティ、サイバーセキュリティ、および文学ドメイン消去タスクに対する効果を実証する。
論文 参考訳(メタデータ) (2024-10-03T17:59:30Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - On the Effectiveness of Automated Metrics for Text Generation Systems [4.661309379738428]
本稿では,不完全な自動計測や不十分な大きさのテストセットなど,不確実性の原因を取り入れた理論を提案する。
この理論には、テキスト生成システムの一連の性能を確実に区別するために必要なサンプル数を決定するなど、実用的な応用がある。
論文 参考訳(メタデータ) (2022-10-24T08:15:28Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。