論文の概要: Is human scoring the best criteria for summary evaluation?
- arxiv url: http://arxiv.org/abs/2012.14602v1
- Date: Tue, 29 Dec 2020 04:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:39:59.618932
- Title: Is human scoring the best criteria for summary evaluation?
- Title(参考訳): ヒューマンスコアは要約評価の最良の基準か?
- Authors: Oleg Vasilyev and John Bohannon
- Abstract要約: 人間のスコアとの相関に頼らずに最適な尺度を選択するための基準を検討する。
BLANCファミリーの測度に対する我々の観察は、この基準が全く異なる要約のスタイルで普遍的であることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normally, summary quality measures are compared with quality scores produced
by human annotators. A higher correlation with human scores is considered to be
a fair indicator of a better measure. We discuss observations that cast doubt
on this view. We attempt to show a possibility of an alternative indicator.
Given a family of measures, we explore a criterion of selecting the best
measure not relying on correlations with human scores. Our observations for the
BLANC family of measures suggest that the criterion is universal across very
different styles of summaries.
- Abstract(参考訳): 通常、要約品質尺度は人間の注釈による品質スコアと比較される。
人間のスコアと高い相関は、より良い指標の公正な指標であると考えられている。
この見解に疑問を呈する観測について論じる。
我々は代替指標の可能性を示す。
尺度の族として、人間のスコアとの相関に頼らない最良の尺度を選択する基準を検討する。
BLANCファミリーの測度に対する観察は、この基準が全く異なる要約のスタイルで普遍的であることを示唆している。
関連論文リスト
- Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Investigating the Nature of Disagreements on Mid-Scale Ratings: A Case
Study on the Abstractness-Concreteness Continuum [8.086165096687772]
人間は極端な場合の尺度での格付けに強く同意する傾向にあるが、中規模語の判断はより意見の相違を示す。
本研究は,中規模単語の有意な多モーダルな特徴を特定するために,具体性評価に焦点をあて,相関関係と教師付き分類を実装した。
提案手法は, 使用前に, 微調整か, 中規模ターゲット語をフィルタリングすることである。
論文 参考訳(メタデータ) (2023-11-08T09:52:58Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Rethinking and Refining the Distinct Metric [61.213465863627476]
我々は、その期待に基づいて異なるトークンの数を再スケーリングすることで、異なるスコアの計算を洗練する。
実験的および理論的証拠の両面から,本手法が元の異なるスコアで示されるバイアスを効果的に除去することを示す。
論文 参考訳(メタデータ) (2022-02-28T07:36:30Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - Survey Equivalence: A Procedure for Measuring Classifier Accuracy
Against Human Labels [22.306556984886328]
多くの分類タスクでは、根底的な真理はうるさいか主観的である。
本稿では,任意の精度尺度を直観的な解釈に再スケールする手順について述べる。
論文 参考訳(メタデータ) (2021-06-02T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。