論文の概要: FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets
- arxiv url: http://arxiv.org/abs/2307.10928v3
- Date: Fri, 16 Feb 2024 05:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:43:20.224311
- Title: FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets
- Title(参考訳): FLASK:アライメントスキルセットに基づくきめ細かい言語モデルの評価
- Authors: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone
Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
- Abstract要約: FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
- 参考スコア(独自算出の注目度): 72.54255857335549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of Large Language Models (LLMs) is challenging because
instruction-following necessitates alignment with human values and the required
set of skills varies depending on the instruction. However, previous studies
have mainly focused on coarse-grained evaluation (i.e. overall preference-based
evaluation), which limits interpretability since it does not consider the
nature of user instructions that require instance-wise skill composition. In
this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on
Alignment Skill Sets), a fine-grained evaluation protocol for both human-based
and model-based evaluation which decomposes coarse-level scoring to a skill
set-level scoring for each instruction. We experimentally observe that the
fine-graininess of evaluation is crucial for attaining a holistic view of model
performance and increasing the reliability of the evaluation. Using FLASK, we
compare multiple open-source and proprietary LLMs and observe a high
correlation between model-based and human-based evaluations. We publicly
release the evaluation data and code implementation at
https://github.com/kaistAI/FLASK.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価は、命令追従が人的価値と整合し、必要なスキルセットが命令によって異なるため困難である。
しかし,これまでの研究は主に粗粒度評価(全体選好評価)に焦点をあてており,インスタンス毎のスキル構成を必要とするユーザ指示の性質を考慮せず,解釈可能性の制限を行っている。
本稿では,粗いスコアリングを各命令のスキルレベルスコアに分解する,人間ベースおよびモデルベース評価のための細粒度評価プロトコルであるflask (fine- grain language model evaluation based alignment skill sets)を提案する。
モデル性能の総合的視点と評価の信頼性向上には,評価の微粒度が重要であることを実験的に観察した。
FLASKを用いて、複数のオープンソースとプロプライエタリなLCMを比較し、モデルベースと人間ベースの評価との間に高い相関関係を観察する。
評価データとコードの実装はhttps://github.com/kaistAI/FLASK.comで公開しています。
関連論文リスト
- HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting
Classification datasets and their semantic hierarchy [32.083896395844924]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - An Examination of the Compositionality of Large Generative
Vision-Language Models [8.586311439906224]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
既存の評価指標とベンチマークは、主にCLIPのような対照的なモデルの評価に焦点を当てている。
本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法について述べる。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。