論文の概要: ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation
- arxiv url: http://arxiv.org/abs/2405.04818v1
- Date: Wed, 8 May 2024 05:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 15:14:42.541873
- Title: ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation
- Title(参考訳): ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation
- Authors: Ana Brassard, Benjamin Heinzerling, Keito Kudo, Keisuke Sakaguchi, Kentaro Inui,
- Abstract要約: ACORNは3500のフリーテキストの説明とアスペクトワイドの品質評価のデータセットである。
人間の格付けの1つを置き換えることは時々維持されるが、より多くはアノテーション間の合意を下げることが観察された。
また,リテラルとして,リミテッドヒトプールとLDMとの相関も検討した。
- 参考スコア(独自算出の注目度): 29.718851249656172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating free-text explanations is a multifaceted, subjective, and labor-intensive task. Large language models (LLMs) present an appealing alternative due to their potential for consistency, scalability, and cost-efficiency. In this work, we present ACORN, a new dataset of 3,500 free-text explanations and aspect-wise quality ratings, and use it to gain insights into how LLMs evaluate explanations. We observed that replacing one of the human ratings sometimes maintained, but more often lowered the inter-annotator agreement across different settings and quality aspects, suggesting that their judgments are not always consistent with human raters. We further quantified this difference by comparing the correlation between LLM-generated ratings with majority-voted human ratings across different quality aspects. With the best system, Spearman's rank correlation ranged between 0.53 to 0.95, averaging 0.72 across aspects, indicating moderately high but imperfect alignment. Finally, we considered the alternative of using an LLM as an additional rater when human raters are scarce, and measured the correlation between majority-voted labels with a limited human pool and LLMs as an additional rater, compared to the original gold labels. While GPT-4 improved the outcome when there were only two human raters, in all other observed cases, LLMs were neutral to detrimental when there were three or more human raters. We publicly release the dataset to support future improvements in LLM-in-the-loop evaluation here: https://github.com/a-brassard/ACORN.
- Abstract(参考訳): 自由文の説明を評価することは多面的、主観的、労働集約的な課題である。
大規模言語モデル(LLM)は、一貫性、スケーラビリティ、コスト効率の面で魅力的な代替手段である。
本研究では,3500のフリーテキストの説明とアスペクトワイドな品質評価のデータセットであるACORNを紹介し,LCMが説明を評価する方法についての洞察を得るために利用した。
人間の評価の1つを置き換えることは、時々維持されるが、より多くは、異なる設定と品質の側面でアノテーション間の合意を低くし、その判断が常に人間のレーダと一致しているとは限らないことを示唆している。
また,LLMによる評価と評価結果の相関性を比較することで,この差を定量化した。
最高の系では、スピアマンのランク相関は0.53から0.95の範囲であり、平均的なアスペクトは0.72であり、適度に高いが不完全なアライメントを示している。
最後に,人間のレーダが不足している場合,LDMを追加のレーダとして用いる方法を検討するとともに,従来のゴールドラベルと比較して,ヒトプールに限定した多数発声ラベルとLDMを付加のレーダとして用いた場合の相関を調べた。
GPT-4は、ヒトのラッカーが2つしかない場合に改善したが、他のすべての観察例では、LDMは3つ以上のヒトのラッカーがある場合、有害に中立であった。
LLM-in-the-loop評価の今後の改善をサポートするために、データセットを公開しています。
関連論文リスト
- LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。
人間のデータとの比較がないと、これらの評価の有効性が懸念される。
JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文 参考訳(メタデータ) (2023-10-16T05:19:02Z) - A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文 参考訳(メタデータ) (2023-10-09T12:12:55Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - Exploring Qualitative Research Using LLMs [8.545798128849091]
この研究は、人間とAIが駆動する大規模言語モデルの理解能力を比較し、比較することを目的としている。
私たちはAlexaアプリのレビューの小さなサンプルを使って実験を行い、最初は人間のアナリストによって分類された。
LLMはこれらのレビューを分類し、それぞれの分類の背後にある理由を提供するよう求められた。
論文 参考訳(メタデータ) (2023-06-23T05:21:36Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。