論文の概要: FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets
- arxiv url: http://arxiv.org/abs/2307.10928v1
- Date: Thu, 20 Jul 2023 14:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:28:29.217236
- Title: FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets
- Title(参考訳): FLASK:アライメントスキルセットに基づくきめ細かい言語モデルの評価
- Authors: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone
Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
- Abstract要約: FLASKは、粗度スコアリングをインスタンス単位のスキルセットレベルに分解する、きめ細かい評価プロトコルである。
具体的には、LLMがオープンエンドユーザー指示に従うために必要な12のきめ細かいスキルを定義する。
FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析した総合的なビューを提供する。
- 参考スコア(独自算出の注目度): 39.83660394323222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of Large Language Models (LLMs) is challenging because aligning to
human values requires the composition of multiple skills and the required set
of skills varies depending on the instruction. Recent studies have evaluated
the performance of LLMs in two ways, (1) automatic evaluation on several
independent benchmarks and (2) human or machined-based evaluation giving an
overall score to the response. However, both settings are coarse-grained
evaluations, not considering the nature of user instructions that require
instance-wise skill composition, which limits the interpretation of the true
capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language
Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation
protocol that can be used for both model-based and human-based evaluation which
decomposes coarse-level scoring to an instance-wise skill set-level.
Specifically, we define 12 fine-grained skills needed for LLMs to follow
open-ended user instructions and construct an evaluation set by allocating a
set of skills for each instance. Additionally, by annotating the target domains
and difficulty level for each instance, FLASK provides a holistic view with a
comprehensive analysis of a model's performance depending on skill, domain, and
difficulty. Through using FLASK, we compare multiple open-sourced and
proprietary LLMs and observe highly-correlated findings between model-based and
human-based evaluations. FLASK enables developers to more accurately measure
the model performance and how it can be improved by analyzing factors that make
LLMs proficient in particular skills. For practitioners, FLASK can be used to
recommend suitable models for particular situations through comprehensive
comparison among various LLMs. We release the evaluation data and code
implementation at https://github.com/kaistAI/FLASK.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価は、人的価値に合わせるには、複数のスキルの構成が必要であり、必要なスキルセットは命令によって異なるため、難しい。
最近の研究では,(1)複数の独立ベンチマークの自動評価,(2)反応に対する総合スコアを与える人間または機械による評価,の2つの方法でllmの性能評価を行っている。
しかし、どちらの設定も大まかな評価であり、LLMの真の能力の解釈を制限するインスタンスワイドなスキル構成を必要とするユーザ命令の性質を考慮しない。
本稿では,粗粒度スコアリングをインスタンス毎のスキルセットレベルに分解するモデルベースとヒューマンベースの両方に適用可能な,粒度評価プロトコルであるflask(粒度言語モデル評価,アライメントスキルセットに基づく粒度言語モデル評価)を提案する。
具体的には、LLMがオープンエンドのユーザ指示に従うために必要な12のきめ細かいスキルを定義し、各インスタンスのスキルセットを割り当てて評価セットを構築する。
さらに、各インスタンスのターゲットドメインと難易度をアノテートすることで、FLASKは、スキル、ドメイン、難易度に応じて、モデルのパフォーマンスを包括的に分析する全体像を提供する。
FLASKを用いて、複数のオープンソースおよびプロプライエタリなLCMを比較し、モデルに基づく評価と人間による評価の高度に相関した結果を観察する。
FLASKを使うことで、開発者はモデルのパフォーマンスをより正確に測定し、特定のスキルにおいてLLMを熟練させる要因を分析することで改善できる。
実践者にとって、FLASKは様々なLLMの総合的な比較を通じて、特定の状況に適したモデルを提案するために使用できる。
評価データとコード実装はhttps://github.com/kaistAI/FLASK.comで公開します。
関連論文リスト
- HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting
Classification datasets and their semantic hierarchy [32.083896395844924]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - An Examination of the Compositionality of Large Generative
Vision-Language Models [8.586311439906224]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
既存の評価指標とベンチマークは、主にCLIPのような対照的なモデルの評価に焦点を当てている。
本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法について述べる。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。