論文の概要: ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation
- arxiv url: http://arxiv.org/abs/2405.04818v1
- Date: Wed, 8 May 2024 05:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 15:14:42.541873
- Title: ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation
- Title(参考訳): ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation
- Authors: Ana Brassard, Benjamin Heinzerling, Keito Kudo, Keisuke Sakaguchi, Kentaro Inui,
- Abstract要約: ACORNは3500のフリーテキストの説明とアスペクトワイドの品質評価のデータセットである。
人間の格付けの1つを置き換えることは時々維持されるが、より多くはアノテーション間の合意を下げることが観察された。
また,リテラルとして,リミテッドヒトプールとLDMとの相関も検討した。
- 参考スコア(独自算出の注目度): 29.718851249656172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating free-text explanations is a multifaceted, subjective, and labor-intensive task. Large language models (LLMs) present an appealing alternative due to their potential for consistency, scalability, and cost-efficiency. In this work, we present ACORN, a new dataset of 3,500 free-text explanations and aspect-wise quality ratings, and use it to gain insights into how LLMs evaluate explanations. We observed that replacing one of the human ratings sometimes maintained, but more often lowered the inter-annotator agreement across different settings and quality aspects, suggesting that their judgments are not always consistent with human raters. We further quantified this difference by comparing the correlation between LLM-generated ratings with majority-voted human ratings across different quality aspects. With the best system, Spearman's rank correlation ranged between 0.53 to 0.95, averaging 0.72 across aspects, indicating moderately high but imperfect alignment. Finally, we considered the alternative of using an LLM as an additional rater when human raters are scarce, and measured the correlation between majority-voted labels with a limited human pool and LLMs as an additional rater, compared to the original gold labels. While GPT-4 improved the outcome when there were only two human raters, in all other observed cases, LLMs were neutral to detrimental when there were three or more human raters. We publicly release the dataset to support future improvements in LLM-in-the-loop evaluation here: https://github.com/a-brassard/ACORN.
- Abstract(参考訳): 自由文の説明を評価することは多面的、主観的、労働集約的な課題である。
大規模言語モデル(LLM)は、一貫性、スケーラビリティ、コスト効率の面で魅力的な代替手段である。
本研究では,3500のフリーテキストの説明とアスペクトワイドな品質評価のデータセットであるACORNを紹介し,LCMが説明を評価する方法についての洞察を得るために利用した。
人間の評価の1つを置き換えることは、時々維持されるが、より多くは、異なる設定と品質の側面でアノテーション間の合意を低くし、その判断が常に人間のレーダと一致しているとは限らないことを示唆している。
また,LLMによる評価と評価結果の相関性を比較することで,この差を定量化した。
最高の系では、スピアマンのランク相関は0.53から0.95の範囲であり、平均的なアスペクトは0.72であり、適度に高いが不完全なアライメントを示している。
最後に,人間のレーダが不足している場合,LDMを追加のレーダとして用いる方法を検討するとともに,従来のゴールドラベルと比較して,ヒトプールに限定した多数発声ラベルとLDMを付加のレーダとして用いた場合の相関を調べた。
GPT-4は、ヒトのラッカーが2つしかない場合に改善したが、他のすべての観察例では、LDMは3つ以上のヒトのラッカーがある場合、有害に中立であった。
LLM-in-the-loop評価の今後の改善をサポートするために、データセットを公開しています。
関連論文リスト
- Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - DecipherPref: Analyzing Influential Factors in Human Preference
Judgments via GPT-4 [28.661237196238996]
我々はOpenAIから解放された一対の人的判断の収集を詳細に調査する。
最も好まれる要因はタスクやジャンルによって異なり、最も好まれない要因は一貫性がある傾向にある。
本研究は,人間の嗜好評価におけるバランスの取れたデータセットの構築に影響を及ぼすものである。
論文 参考訳(メタデータ) (2023-05-24T04:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。