論文の概要: Evaluate What You Can't Evaluate: Unassessable Generated Responses
Quality
- arxiv url: http://arxiv.org/abs/2305.14658v1
- Date: Wed, 24 May 2023 02:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:16:49.062397
- Title: Evaluate What You Can't Evaluate: Unassessable Generated Responses
Quality
- Title(参考訳): 評価できないことを評価する: 評価不能な生成応答の品質
- Authors: Yongkang Liu and Shi Feng and Daling Wang and Yifei Zhang and Hinrich
Sch\"utze
- Abstract要約: 大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
- 参考スコア(独自算出の注目度): 21.705686583621816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs (large language models) such as ChatGPT have shown remarkable language
understanding and generation capabilities. Although reference-free evaluators
based on LLMs show better human alignment than traditional reference-based
evaluators, there are many challenges in using reference-free evaluators based
on LLMs. Reference-free evaluators are more suitable for open-ended examples
with different semantics responses. But not all examples are open-ended. For
closed-ended examples with unique correct semantic response, reference-free
evaluators will still consider it high quality when giving a response that is
inconsistent with the facts and the semantic of reference. In order to
comprehensively evaluate the reliability of evaluators based on LLMs, we
construct two adversarial meta-evaluation dialogue generation datasets
KdConv-ADV and DSTC7-ADV based on KdConv and DSTC7-AVSD, respectively. Compared
to previous meta-evaluation benchmarks, KdConv-ADV and DSTC7-ADV are much more
challenging since they requires evaluators to be able to reasonably evaluate
closed-ended examples with the help of external knowledge or even its own
knowledge. Empirical results show that the ability of LLMs to identify
unreasonable responses is insufficient. There are risks in using eference-free
evaluators based on LLMs to evaluate the quality of dialogue responses.
- Abstract(参考訳): ChatGPTのようなLLM(大規模言語モデル)は、顕著な言語理解と生成能力を示している。
LLMに基づく参照フリー評価器は、従来の参照ベース評価器よりも優れた人間のアライメントを示すが、LLMに基づく参照フリー評価器を使用するには多くの課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
しかし、すべての例がオープンエンドであるわけではない。
ユニークな正しいセマンティック応答を持つクローズドエンド例の場合、参照のない評価者は、事実や参照の意味と矛盾する応答を与える際にも高い品質を考慮します。
LLM に基づく評価器の信頼性を総合的に評価するために,KdConv-ADV と DSTC7-ADV の2つの対向メタ評価対話生成データセットを構築した。
これまでのメタ評価ベンチマークと比べて、kdconv-advとdstc7-advは、外部の知識やそれ自身の知識の助けを借りて、限定されたサンプルを適切に評価する必要があるため、はるかに難しい。
実験の結果,LLMが不適切な応答を識別する能力は不十分であることが示唆された。
対話応答の質を評価するために LLM に基づく推論不要評価器を使用するリスクがある。
関連論文リスト
- Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。
我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。
本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:23:23Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。
CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [30.674896082482476]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。
我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文 参考訳(メタデータ) (2024-02-18T19:13:52Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - EvalLM: Interactive Evaluation of Large Language Model Prompts on
User-Defined Criteria [43.944632774725484]
本稿では,ユーザ定義基準に基づいて複数の出力を評価することで,プロンプトを反復的に精錬するインタラクティブシステムであるEvalLMを提案する。
自然言語の基準を記述することで、ユーザはシステムのLCMベースの評価器を使って、どのプロンプトがエキサイティングか、失敗かを概観することができる。
比較研究では、EvalLMは手動による評価と比較して、参加者がより多様な基準を策定し、アウトプットの2倍を検査し、59%のリビジョンで満足なプロンプトに達するのに役立った。
論文 参考訳(メタデータ) (2023-09-24T13:19:38Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。