論文の概要: Style Over Substance: Evaluation Biases for Large Language Models
- arxiv url: http://arxiv.org/abs/2307.03025v1
- Date: Thu, 6 Jul 2023 14:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 13:46:47.581995
- Title: Style Over Substance: Evaluation Biases for Large Language Models
- Title(参考訳): style over substance: 大規模言語モデルに対する評価バイアス
- Authors: Minghao Wu, Alham Fikri Aji
- Abstract要約: 大規模言語モデル(LLM)は進歩を続け、正確かつ包括的にその性能を評価することはますます困難になっている。
近年の進歩は、評価過程における人間の判断のためのプロキシとして、最先端のLLMが組み込まれている。
本研究では,クラウドソース型人間とLCMベースの審査員の,異なるモデルからのアウトプットを比較する際の行動について検討する。
- 参考スコア(独自算出の注目度): 3.8240497455373585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to advance, accurately and
comprehensively evaluating their performance becomes increasingly challenging.
Conventionally, human evaluations are considered the gold standard in natural
language generation. Recent advancements incorporate state-of-the-art LLMs as
proxies for human judges in evaluation processes. Nonetheless, the extent to
which humans and LLMs are capable evaluators remains uncertain. This study aims
to investigate the behavior of both crowd-sourced human and LLM-based judges
when comparing outputs from different models. To accomplish this, we curate a
dataset comprising intentionally flawed machine-generated answers. Our findings
indicate that despite the potentially greater danger posed by factual errors,
answers with factual errors were still rated more favorably compared to answers
that were too short or contained grammatical errors. This highlights a
concerning bias in the evaluation process. To address this issue, we propose to
independently evaluate machine-generated text across multiple dimensions,
rather than merging all the evaluation aspects into a single score. We
instantiate this idea with the Elo rating system, resulting in the Multi-Elo
Rating System. Empirical results from our study reveal that this proposed
approach significantly enhances the quality of LLM-based evaluations,
particularly in terms of factual accuracy. However, notable improvement is not
observed in crowd-sourced-based evaluations, suggesting the need for further
investigation and refinement.
- Abstract(参考訳): 大きな言語モデル(LLM)が進歩を続けるにつれ、そのパフォーマンスを正確かつ包括的に評価することはますます困難になっている。
従来、人間の評価は自然言語生成における金の標準とみなされていた。
近年の進歩は、評価過程における人間の判断のためのプロキシとして最先端のLSMを取り入れている。
それでも、人間とLLMがどの程度の能力を持つかは、まだ不明である。
本研究では,クラウドソース型人間とLCMベースの審査員の,異なるモデルからのアウトプットを比較する際の行動について検討する。
これを実現するために、意図的に欠陥のある機械生成回答からなるデータセットをキュレートする。
その結果, 事実誤りによる潜在的に大きな危険があるにもかかわらず, 事実誤りによる回答は, 短すぎる, 文法的誤りを含む回答に比べ, いまだに好意的に評価されていた。
これは評価プロセスにおける関連するバイアスを強調します。
この問題に対処するために,評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立して評価することを提案する。
このアイデアをeloレーティングシステムでインスタンス化し,マルチeloレーティングシステムを実現する。
本研究から得られた実験結果から,本手法はLLMによる評価,特に実測精度を著しく向上させることが明らかとなった。
しかし、クラウドソースによる評価では顕著な改善は見られず、さらなる調査と改善の必要性が示唆されている。
関連論文リスト
- Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Elo Uncovered: Robustness and Best Practices in Language Model
Evaluation [9.452326973655447]
評価手法が従うべき2つの公理:信頼性と推移性について検討する。
これらの公理は、LLMの現在の比較評価の信頼性について、常に疑問を呈しているわけではない。
論文 参考訳(メタデータ) (2023-11-29T00:45:23Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Benchmarking Cognitive Biases in Large Language Models as Evaluators [16.845939677403287]
大規模言語モデル(LLM)は、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。
我々は,LLMの認知バイアスベンチマークを導入したランキングアウトプットの品質を評価対象として評価する。
LLMはテキスト品質評価器であり、バイアスベンチマークに強い指標を示す。
論文 参考訳(メタデータ) (2023-09-29T06:53:10Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。