論文の概要: Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling
- arxiv url: http://arxiv.org/abs/2406.07967v1
- Date: Wed, 12 Jun 2024 07:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:55:44.485208
- Title: Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling
- Title(参考訳): ランダムよりも優れた: 制限付きアクティブサンプリングによる信頼性の高いNLG人的評価
- Authors: Jie Ruan, Xiao Pu, Mingqi Gao, Xiaojun Wan, Yuesheng Zhu,
- Abstract要約: 信頼性の高い人的判断のための制約付きアクティブサンプリングフレームワーク(CASF)を提案する。
実験の結果、CASFは93.18%のシステム認識精度が得られた。
- 参考スコア(独自算出の注目度): 50.08315607506652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation is viewed as a reliable evaluation method for NLG which is expensive and time-consuming. To save labor and costs, researchers usually perform human evaluation on a small subset of data sampled from the whole dataset in practice. However, different selection subsets will lead to different rankings of the systems. To give a more correct inter-system ranking and make the gold standard human evaluation more reliable, we propose a Constrained Active Sampling Framework (CASF) for reliable human judgment. CASF operates through a Learner, a Systematic Sampler and a Constrained Controller to select representative samples for getting a more correct inter-system ranking.Experiment results on 137 real NLG evaluation setups with 44 human evaluation metrics across 16 datasets and 5 NLG tasks demonstrate CASF receives 93.18% top-ranked system recognition accuracy and ranks first or ranks second on 90.91% of the human metrics with 0.83 overall inter-system ranking Kendall correlation.Code and data are publicly available online.
- Abstract(参考訳): 人的評価は高価で時間を要するNLGの評価手法として信頼性が高いと考えられる。
労力とコストを節約するために、研究者は通常、データセット全体からサンプリングされたデータの小さなサブセットに対して、人間による評価を行う。
しかし、異なる選択サブセットはシステムの異なるランキングにつながる。
より正確なシステム間ランキングを与え, 金本位評価をより信頼性の高いものにするため, 信頼性の高い人的判断のための制約付きアクティブサンプリングフレームワーク(CASF)を提案する。
CASFは、Learner、Systematic Sampler、Constrained Controllerを通じて、より正確なシステム間ランキングを得るための代表的サンプルを選択する。137個の実NLG評価セットの実験結果、16のデータセットと5つのNLGタスクにわたる44の人的評価指標で、CASFは93.18%のシステム認識精度を受け取り、システム間ランキング0.83の人的指標の90.91%で第1位または第2位にランク付けされている。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Abnormal-aware Multi-person Evaluation System with Improved Fuzzy
Weighting [0.0]
粗スクリーニングとスコア重み付きKendall-$tau$ Distanceからなる2段階スクリーニング法を選択する。
ファジィ・シンセティック・アセスメント・メソッド(FSE)を用いて、レビュアーによるスコアの重要度と信頼性を判定する。
論文 参考訳(メタデータ) (2022-05-01T03:42:43Z) - Active Evaluation: Efficient NLG Evaluation with Few Pairwise
Comparisons [19.547476809031764]
トップランクのシステムを効率的に識別するフレームワークであるActive Evaluationを導入する。
人間のアノテーションの数を80%削減できることを示す。
また,自動評価指標と人的評価を併用したモデルベースデュエルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-11T16:39:15Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Better than Average: Paired Evaluation of NLP Systems [31.311553903738798]
評価スコアのインスタンスレベルのペアリングを考慮に入れることの重要性を示す。
平均, 中央値, BT と 2 種類のBT (Elo と TrueSkill) を用いて評価スコアの完全な解析を行うための実用的なツールをリリースする。
論文 参考訳(メタデータ) (2021-10-20T19:40:31Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。