論文の概要: Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?
- arxiv url: http://arxiv.org/abs/2508.15218v1
- Date: Thu, 21 Aug 2025 04:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.176011
- Title: Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?
- Title(参考訳): チェックリストは生成タスクの自動評価に本当に有用か?
- Authors: Momoka Furuhashi, Kouta Nakayama, Takashi Kodama, Saku Sugawara,
- Abstract要約: そこで本研究では,全ての質問に対してチェックリストを使用すべきか,選択的に6つの手法を用いてチェックリストを生成し,その有効性を8つのモデルサイズで評価し,人間の評価と相関するチェックリスト項目を同定する。
分析の結果,ヒトのスコアとの相関が低いチェックリスト項目でさえ,人による評価の不整合性を示す基準を反映することが多かった。
これらの知見は、人的評価と自動評価の両方をガイドする客観的評価基準をより明確に定義する必要性を強調している。
- 参考スコア(独自算出の注目度): 11.809285587111983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluation of generative tasks using large language models faces challenges due to ambiguous criteria. Although automatic checklist generation is a potentially promising approach, its usefulness remains underexplored. We investigate whether checklists should be used for all questions or selectively, generate them using six methods, evaluate their effectiveness across eight model sizes, and identify checklist items that correlate with human evaluations. Through experiments on pairwise comparison and direct scoring tasks, we find that selective checklist use tends to improve evaluation performance in pairwise settings, while its benefits are less consistent in direct scoring. Our analysis also shows that even checklist items with low correlation to human scores often reflect human-written criteria, indicating potential inconsistencies in human evaluation. These findings highlight the need to more clearly define objective evaluation criteria to guide both human and automatic evaluations. \footnote{Our code is available at~https://github.com/momo0817/checklist-effectiveness-study
- Abstract(参考訳): 大規模言語モデルを用いた生成タスクの自動評価は曖昧な基準による課題に直面している。
自動チェックリスト生成は、潜在的に有望なアプローチであるが、その有用性はまだ探索されていない。
そこで本研究では,全ての質問に対してチェックリストを使用すべきか,選択的に6つの手法を用いてチェックリストを生成し,その有効性を8つのモデルサイズで評価し,人間の評価と相関するチェックリスト項目を同定する。
ペアワイズ比較および直接スコアリングタスクの実験により、選択チェックリストの使用はペアワイズ環境での評価性能を向上させる傾向にあるが、その利点は直接スコアリングにおいて一貫性がないことがわかった。
また,ヒトのスコアとの相関が低いチェックリスト項目においても,人による評価の不整合性を示す基準が反映されることが多かった。
これらの知見は、人的評価と自動評価の両方をガイドする客観的評価基準をより明確に定義する必要性を強調している。
\footnote{Our code is available at~https://github.com/momo0817/checklist- Effectiveness-study
関連論文リスト
- The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Perturbation CheckLists for Evaluating NLG Evaluation Metrics [16.20764980129339]
自然言語生成(NLG)評価は,複数の望ましい基準の評価を必要とする多面的課題である。
6つのNLGタスクのための既存のデータセット全体で、これらの複数の基準に対する人間の評価スコアは相関しないことが多い。
これは、NLGのための新しい自動評価指標を提案する現在のレシピが不十分であることを示唆している。
論文 参考訳(メタデータ) (2021-09-13T08:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。