論文の概要: FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets
- arxiv url: http://arxiv.org/abs/2307.10928v1
- Date: Thu, 20 Jul 2023 14:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:28:29.217236
- Title: FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets
- Title(参考訳): FLASK:アライメントスキルセットに基づくきめ細かい言語モデルの評価
- Authors: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone
Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
- Abstract要約: FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。
具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。
FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
- 参考スコア(独自算出の注目度): 39.83660394323222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of Large Language Models (LLMs) is challenging because aligning to
human values requires the composition of multiple skills and the required set
of skills varies depending on the instruction. Recent studies have evaluated
the performance of LLMs in two ways, (1) automatic evaluation on several
independent benchmarks and (2) human or machined-based evaluation giving an
overall score to the response. However, both settings are coarse-grained
evaluations, not considering the nature of user instructions that require
instance-wise skill composition, which limits the interpretation of the true
capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language
Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation
protocol that can be used for both model-based and human-based evaluation which
decomposes coarse-level scoring to an instance-wise skill set-level.
Specifically, we define 12 fine-grained skills needed for LLMs to follow
open-ended user instructions and construct an evaluation set by allocating a
set of skills for each instance. Additionally, by annotating the target domains
and difficulty level for each instance, FLASK provides a holistic view with a
comprehensive analysis of a model's performance depending on skill, domain, and
difficulty. Through using FLASK, we compare multiple open-sourced and
proprietary LLMs and observe highly-correlated findings between model-based and
human-based evaluations. FLASK enables developers to more accurately measure
the model performance and how it can be improved by analyzing factors that make
LLMs proficient in particular skills. For practitioners, FLASK can be used to
recommend suitable models for particular situations through comprehensive
comparison among various LLMs. We release the evaluation data and code
implementation at https://github.com/kaistAI/FLASK.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価は、人的価値に合わせるには、複数のスキルの構成が必要であり、必要なスキルセットは命令によって異なるため、難しい。
最近の研究では,(1)複数の独立ベンチマークの自動評価,(2)反応に対する総合スコアを与える人間または機械による評価,の2つの方法でllmの性能評価を行っている。
しかし、どちらの設定も大まかな評価であり、LLMの真の能力の解釈を制限するインスタンスワイドなスキル構成を必要とするユーザ命令の性質を考慮しない。
本稿では,粗粒度スコアリングをインスタンス毎のスキルセットレベルに分解するモデルベースとヒューマンベースの両方に適用可能な,粒度評価プロトコルであるflask(粒度言語モデル評価,アライメントスキルセットに基づく粒度言語モデル評価)を提案する。
具体的には、LLMがオープンエンドのユーザ指示に従うために必要な12のきめ細かいスキルを定義し、各インスタンスのスキルセットを割り当てて評価セットを構築する。
さらに、各インスタンスのターゲットドメインと難易度をアノテートすることで、FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析する全体像を提供する。
FLASKを用いて、複数のオープンソースおよびプロプライエタリなLCMを比較し、モデルに基づく評価と人間による評価の高度に相関した結果を観察する。
FLASKを使うことで、開発者はモデルのパフォーマンスをより正確に測定し、特定のスキルにおいてLLMを熟練させる要因を分析することで改善できる。
実践者にとって、FLASKは様々なLLMの総合的な比較を通じて、特定の状況に適したモデルを提案するために使用できる。
評価データとコード実装はhttps://github.com/kaistAI/FLASK.comで公開します。
関連論文リスト
- Unveiling Context-Aware Criteria in Self-Assessing LLMs [28.156979106994537]
本研究では, 文脈認識基準(SALC)を各評価インスタンスに適した動的知識と統合した, 自己評価 LLM フレームワークを提案する。
経験的評価は,本手法が既存のベースライン評価フレームワークを著しく上回っていることを示す。
また,AlpacaEval2リーダボードにおけるLCWin-Rateの改善を,選好データ生成に使用する場合の12%まで改善した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。