論文の概要: ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation
- arxiv url: http://arxiv.org/abs/2405.04818v2
- Date: Mon, 2 Sep 2024 02:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 18:30:43.156105
- Title: ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation
- Title(参考訳): ACORN: Aspect-wise Commonsense Reasoning Explanation Evaluation
- Authors: Ana Brassard, Benjamin Heinzerling, Keito Kudo, Keisuke Sakaguchi, Kentaro Inui,
- Abstract要約: 大規模言語モデル(LLM)は、一貫性、スケーラビリティ、コスト効率の面で魅力的な代替手段である。
ACORNは3500のフリーテキストの説明とアスペクトワイドの品質評価のデータセットである。
- 参考スコア(独自算出の注目度): 29.718851249656172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the quality of free-text explanations is a multifaceted, subjective, and labor-intensive task. Large language models (LLMs) present an appealing alternative due to their potential for consistency, scalability, and cost-efficiency. In this work, we present ACORN, a new dataset of 3,500 free-text explanations and aspect-wise quality ratings, and use it to evaluate how LLMs rate explanations. We observed that larger models outputted labels that maintained or increased the inter-annotator agreement, suggesting that they are within the expected variance between human raters. However, their correlation with majority-voted human ratings varied across different quality aspects, indicating that they are not a complete replacement. In turn, using LLMs as a supplement to a smaller group of human raters in some cases improved the correlation with the original majority labels. However, the effect was limited to cases where human raters were scarce, and an additional human rater had a more pronounced effect in all cases. Overall, we recommend against using LLMs as a complete replacement for human raters but encourage using them in configurations that end with targeted human involvement. Data available here: https://github.com/a-brassard/ACORN
- Abstract(参考訳): 自由文の説明の質を評価することは多面的、主観的、労働集約的な課題である。
大規模言語モデル(LLM)は、一貫性、スケーラビリティ、コスト効率の面で魅力的な代替手段である。
本研究では,3500のフリーテキスト説明とアスペクトワイドな品質評価のデータセットであるACORNを紹介し,LCMのレート説明の方法を評価する。
以上の結果から,アノテータ間の合意を維持・拡大するラベルを出力し,アノテータ間のアノテータ間の差異が予想される範囲内であることが示唆された。
しかし、多数投票による評価との相関は品質面で異なるため、完全な置き換えではないことが示唆された。
逆に、LLMを少数のヒトラッカーの補充剤として使用することで、元のマジョリティラベルとの相関が向上するケースもある。
しかし、この効果は、ヒトのラッカーが不足しているケースに限られており、追加のヒトレーダは全てのケースにおいてより顕著な効果を示した。
全体としては、LLMを人間のラッカーの完全な代替品として使用することを推奨するが、人間の関与を目標とする構成で使用することを推奨する。
https://github.com/a-brassard/ACORN
関連論文リスト
- Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - DecipherPref: Analyzing Influential Factors in Human Preference
Judgments via GPT-4 [28.661237196238996]
我々はOpenAIから解放された一対の人的判断の収集を詳細に調査する。
最も好まれる要因はタスクやジャンルによって異なり、最も好まれない要因は一貫性がある傾向にある。
本研究は,人間の嗜好評価におけるバランスの取れたデータセットの構築に影響を及ぼすものである。
論文 参考訳(メタデータ) (2023-05-24T04:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。