論文の概要: Near-Negative Distinction: Giving a Second Life to Human Evaluation
Datasets
- arxiv url: http://arxiv.org/abs/2205.06871v1
- Date: Fri, 13 May 2022 20:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:52:24.246050
- Title: Near-Negative Distinction: Giving a Second Life to Human Evaluation
Datasets
- Title(参考訳): 近負の区別:人間評価データセットにセカンドライフを与える
- Authors: Philippe Laban and Chien-Sheng Wu and Wenhao Liu and Caiming Xiong
- Abstract要約: 本研究では,従来のアノテーションをNNDテストに再利用するNear-Negative Distinction(NND)を提案する。
NNDテストでは、NLGモデルは既知の誤りのあるほぼ負の候補よりも高品質な出力候補に高い確率で配置しなければならない。
NND は標準的な NLG 評価指標よりも,人間の判断との相関性が高いことを示す。
- 参考スコア(独自算出の注目度): 95.4182455942628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precisely assessing the progress in natural language generation (NLG) tasks
is challenging, and human evaluation to establish preference in a model's
output over another is often necessary. However, human evaluation is usually
costly, difficult to reproduce, and non-reusable. In this paper, we propose a
new and simple automatic evaluation method for NLG called Near-Negative
Distinction (NND) that repurposes prior human annotations into NND tests. In an
NND test, an NLG model must place higher likelihood on a high-quality output
candidate than on a near-negative candidate with a known error. Model
performance is established by the number of NND tests a model passes, as well
as the distribution over task-specific errors the model fails on. Through
experiments on three NLG tasks (question generation, question answering, and
summarization), we show that NND achieves higher correlation with human
judgments than standard NLG evaluation metrics. We then illustrate NND
evaluation in four practical scenarios, for example performing fine-grain model
analysis, or studying model training dynamics. Our findings suggest NND can
give a second life to human annotations and provide low-cost NLG evaluation.
- Abstract(参考訳): 自然言語生成(NLG)タスクの進捗を正確に評価することは困難であり、モデルの出力を他のタスクよりも優先する人間の評価がしばしば必要である。
しかし、人間の評価は通常費用がかかり、再現が難しく、再利用できない。
本論文では,従来のアノテーションをNNDテストに再利用するNLG(Near-Negative Distinction, NND)の簡易自動評価手法を提案する。
NNDテストでは、NLGモデルは既知の誤りのあるほぼ負の候補よりも高品質な出力候補に高い確率で配置しなければならない。
モデルパフォーマンスは、モデルが通過するNNDテストの数と、モデルが失敗するタスク固有のエラーの分布によって確立される。
3つのNLGタスク(質問生成、質問応答、要約)の実験を通して、NNDは標準的なNLG評価指標よりも高い相関性が得られることを示す。
次に、細粒度モデル解析やモデルトレーニングダイナミクスの研究など、4つの実践シナリオでNNDの評価を説明する。
NNDは人間のアノテーションに第2の命を与え,低コストなNLG評価を提供する可能性が示唆された。
関連論文リスト
- Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability [39.12792986841385]
本稿では,人間とGPT-4のアノテーションを用いた大規模NLG評価コーパスNLG-Evalを構築した。
また,NLG 評価専用の LLM を提案する。この LLM は,設計した多視点整合性検証と評価指向の選好アライメント手法を用いて訓練されている。
Themis は様々な NLG タスクに対して優れた評価性能を示し、同時に未確認タスクを一般化し、GPT-4 など他の評価モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-26T14:04:29Z) - GNNEvaluator: Evaluating GNN Performance On Unseen Graphs Without Labels [81.93520935479984]
本稿では,ラベル付きおよび観測されたグラフに基づいて学習した特定のGNNモデルの性能を評価することを目的とした,新しい問題であるGNNモデル評価について検討する。
本稿では,(1) DiscGraph セット構築と(2) GNNEvaluator トレーニングと推論を含む2段階の GNN モデル評価フレームワークを提案する。
DiscGraphセットからの効果的なトレーニング監督の下で、GNNEvaluatorは、評価対象であるGNNモデルのノード分類精度を正確に推定することを学ぶ。
論文 参考訳(メタデータ) (2023-10-23T05:51:59Z) - No Strong Feelings One Way or Another: Re-operationalizing Neutrality in
Natural Language Inference [6.485890157501745]
自然言語推論(NLI)は、言語モデルの推論推論能力を評価するための基礎的なタスクである。
NLIで使用される標準的な3方向分類スキームは、自然な人間の推論のニュアンスを捉えるモデルの能力を評価するのに、よく知られた欠点がある。
我々は、現在のNLIデータセットにおける中立ラベルの運用は、妥当性が低く、矛盾なく解釈され、少なくとも1つの重要な中立感が無視されることを論じる。
論文 参考訳(メタデータ) (2023-06-16T15:45:08Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Equitable Ability Estimation in Neurodivergent Student Populations with
Zero-Inflated Learner Models [3.418206750929592]
本稿では,ND学生における文脈(配送型と応答型)と非膨らませ学習者モデルの性能の関係をモデル化する。
このアプローチは, 予測されたND行動特性のシミュレーションを促進し, 生成したデータセットから, 全学生群に等しく, 解釈可能性の信頼度を高め, ND学生の学習機会の質を著しく向上させる。
論文 参考訳(メタデータ) (2022-03-18T21:47:01Z) - Dual Inference for Improving Language Understanding and Generation [35.251935231914366]
自然言語理解(NLU)と自然言語生成(NLG)のタスクは、強い二重関係を持つ。
NLUは自然言語の発話に基づいて意味ラベルを予測することを目的としており、NLGはその逆を行う。
本稿では,再学習を必要とせず,推論段階における双対性を活用することを提案する。
論文 参考訳(メタデータ) (2020-10-08T20:14:41Z) - What Can We Learn from Collective Human Opinions on Natural Language
Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。
このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文 参考訳(メタデータ) (2020-10-07T17:26:06Z) - GraN: An Efficient Gradient-Norm Based Detector for Adversarial and
Misclassified Examples [77.99182201815763]
ディープニューラルネットワーク(DNN)は、敵対的な例やその他のデータ摂動に対して脆弱である。
GraNは、どのDNNにも容易に適応できる時間およびパラメータ効率の手法である。
GraNは多くの問題セットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-04-20T10:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。