論文の概要: Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evaluation
- arxiv url: http://arxiv.org/abs/2406.07935v1
- Date: Wed, 12 Jun 2024 06:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:05:32.522132
- Title: Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evaluation
- Title(参考訳): ヒト評価ガイドラインにおける脆弱性の定義と検出:信頼性NLG評価に向けた予備的研究
- Authors: Jie Ruan, Wenqing Wang, Xiaojun Wan,
- Abstract要約: トップコンファレンスでの人間評価に関する最近の論文の29.84%のみが評価ガイドラインを公表している。
既存の論文から抽出したガイドラインのアノテーションと,大規模言語モデルを用いて作成したガイドラインのアノテーションを収集する。
8つの脆弱性の分類を導入し,評価ガイドライン作成の原則を定式化する。
- 参考スコア(独自算出の注目度): 43.21663407946184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation serves as the gold standard for assessing the quality of Natural Language Generation (NLG) systems. Nevertheless, the evaluation guideline, as a pivotal element ensuring reliable and reproducible human assessment, has received limited attention.Our investigation revealed that only 29.84% of recent papers involving human evaluation at top conferences release their evaluation guidelines, with vulnerabilities identified in 77.09% of these guidelines. Unreliable evaluation guidelines can yield inaccurate assessment outcomes, potentially impeding the advancement of NLG in the right direction. To address these challenges, we take an initial step towards reliable evaluation guidelines and propose the first human evaluation guideline dataset by collecting annotations of guidelines extracted from existing papers as well as generated via Large Language Models (LLMs). We then introduce a taxonomy of eight vulnerabilities and formulate a principle for composing evaluation guidelines. Furthermore, a method for detecting guideline vulnerabilities has been explored using LLMs, and we offer a set of recommendations to enhance reliability in human evaluation. The annotated human evaluation guideline dataset and code for the vulnerability detection method are publicly available online.
- Abstract(参考訳): 人間の評価は、自然言語生成(NLG)システムの品質を評価するための金の標準となっている。
それにもかかわらず、評価ガイドラインは信頼性と再現性のある人的評価を確実にする重要な要素として注目されており、我々の調査によると、トップカンファレンスにおける人的評価に関する最近の研究の29.84%のみが評価ガイドラインを公表し、これらのガイドラインの77.09%に脆弱性が特定されている。
信頼できない評価ガイドラインは、不正確な評価結果をもたらし、NLGの正しい方向への進歩を妨げる可能性がある。
これらの課題に対処するため,我々は,信頼性評価ガイドラインへの最初の一歩を踏み出し,既存の論文から抽出したガイドラインの注釈を収集し,Large Language Models (LLMs) を通じて生成する最初の人間評価ガイドラインデータセットを提案する。
次に,8つの脆弱性の分類を導入し,評価ガイドライン作成の原則を定式化する。
さらに,LSMを用いてガイドラインの脆弱性を検出する手法について検討し,人間の評価の信頼性を高めるためのレコメンデーションセットを提案する。
注釈付きヒト評価ガイドラインデータセットと脆弱性検出方法のコードはオンラインで公開されている。
関連論文リスト
- Themis: Towards Flexible and Interpretable NLG Evaluation [39.12792986841385]
我々は,人間とGPT-4アノテーションを併用した大規模NLG評価コーパスNLG-Evalを構築し,この分野における関連データの欠如を軽減した。
我々は,NLG評価専用のLLMであるThemisを提案する。
論文 参考訳(メタデータ) (2024-06-26T14:04:29Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - A Literature Review and Framework for Human Evaluation of Generative Large Language Models in Healthcare [11.28580626017631]
人工人工知能(AI)は医療に浸透し続けている。
従来の自動評価を人間の専門家による評価で補うことは依然として重要です。
人間の評価の煩雑さ、時間を要すること、そして標準化されていない性質は、実際に大規模言語モデルが広く採用される上で大きな障害となる。
論文 参考訳(メタデータ) (2024-05-04T04:16:07Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Human-in-the-loop Evaluation for Early Misinformation Detection: A Case
Study of COVID-19 Treatments [19.954539961446496]
本稿では,新たな誤情報主張を事実チェックし,それをサポートするソーシャルメディアメッセージを特定するための,ループ内人間評価フレームワークを提案する。
提案手法は,レビューのために集計・ランク付けされたチェック価値のあるクレームを抽出する。
スタンス分類器は、新しい偽情報主張を支持するツイートを識別するために使用され、それらが関連するポリシーに違反しているかどうかを判断するためにさらにレビューされる。
論文 参考訳(メタデータ) (2022-12-19T18:11:10Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。