論文の概要: FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets
- arxiv url: http://arxiv.org/abs/2307.10928v2
- Date: Wed, 4 Oct 2023 04:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 18:31:37.510063
- Title: FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets
- Title(参考訳): FLASK:アライメントスキルセットに基づくきめ細かい言語モデルの評価
- Authors: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone
Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
- Abstract要約: FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
- 参考スコア(独自算出の注目度): 72.54255857335549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of Large Language Models (LLMs) is challenging because
instruction-following necessitates alignment with human values and the required
set of skills varies depending on the instruction. However, previous studies
have mainly focused on coarse-grained evaluation (i.e. overall preference-based
evaluation), which limits interpretability since it does not consider the
nature of user instructions that require instance-wise skill composition. In
this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on
Alignment Skill Sets), a fine-grained evaluation protocol for both human-based
and model-based evaluation which decomposes coarse-level scoring to a skill
set-level scoring for each instruction. We experimentally observe that the
fine-graininess of evaluation is crucial for attaining a holistic view of model
performance and increasing the reliability of the evaluation. Using FLASK, we
compare multiple open-source and proprietary LLMs and observe a high
correlation between model-based and human-based evaluations. We publicly
release the evaluation data and code implementation at
https://github.com/kaistAI/FLASK.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価は、命令追従が人的価値と整合し、必要なスキルセットが命令によって異なるため困難である。
しかし,これまでの研究は主に粗粒度評価(全体選好評価)に焦点をあてており,インスタンス毎のスキル構成を必要とするユーザ指示の性質を考慮せず,解釈可能性の制限を行っている。
本稿では,粗いスコアリングを各命令のスキルレベルスコアに分解する,人間ベースおよびモデルベース評価のための細粒度評価プロトコルであるflask (fine- grain language model evaluation based alignment skill sets)を提案する。
モデル性能の総合的視点と評価の信頼性向上には,評価の微粒度が重要であることを実験的に観察した。
FLASKを用いて、複数のオープンソースとプロプライエタリなLCMを比較し、モデルベースと人間ベースの評価との間に高い相関関係を観察する。
評価データとコードの実装はhttps://github.com/kaistAI/FLASK.comで公開しています。
関連論文リスト
- Unveiling Context-Aware Criteria in Self-Assessing LLMs [28.156979106994537]
本研究では, 文脈認識基準(SALC)を各評価インスタンスに適した動的知識と統合した, 自己評価 LLM フレームワークを提案する。
経験的評価は,本手法が既存のベースライン評価フレームワークを著しく上回っていることを示す。
また,AlpacaEval2リーダボードにおけるLCWin-Rateの改善を,選好データ生成に使用する場合の12%まで改善した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。