論文の概要: Self-Evaluation of Large Language Model based on Glass-box Features
- arxiv url: http://arxiv.org/abs/2403.04222v1
- Date: Thu, 7 Mar 2024 04:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:02:06.311950
- Title: Self-Evaluation of Large Language Model based on Glass-box Features
- Title(参考訳): ガラス箱の特徴に基づく大規模言語モデルの自己評価
- Authors: Hui Huang, Yingqi Qu, Jing Liu, Muyun Yang, Tiejun Zhao
- Abstract要約: オープンソースのLarge Language Models (LLMs) は、評価手法の必要性を浮き彫りにしている。
既存の作業は主に外部評価に頼っており、トレーニングと戦略の推進に重点を置いている。
本研究では,ガラス箱機能の有用性を自己評価のシナリオ下で検討する。
- 参考スコア(独自算出の注目度): 34.842890348136386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of open-source Large Language Models (LLMs) underscores the
pressing need for evaluation methods. Existing works primarily rely on external
evaluators, focusing on training and prompting strategies. However, a crucial
aspect - model-aware glass-box features - is overlooked. In this study, we
explore the utility of glass-box features under the scenario of
self-evaluation, namely applying an LLM to evaluate its own output. We
investigate various glass-box feature groups and discovered that the softmax
distribution serves as a reliable indicator for quality evaluation.
Furthermore, we propose two strategies to enhance the evaluation by
incorporating features derived from references. Experimental results on public
benchmarks validate the feasibility of self-evaluation of LLMs using glass-box
features.
- Abstract(参考訳): オープンソースのLarge Language Models (LLMs) の普及は,評価手法の必要性を浮き彫りにしている。
既存の作業は主に外部評価に頼っており、トレーニングと戦略の推進に重点を置いている。
しかし、重要な側面であるモデル対応のガラスボックス機能は見過ごされている。
本研究では,ガラス箱の特徴を自己評価のシナリオ,すなわち LLM を適用して独自の出力を評価することによる有用性について検討する。
ガラス箱の特徴群を調査し,ソフトマックス分布が品質評価の信頼性指標となることを発見した。
さらに,参照から派生した特徴を組み込むことにより,評価を高めるための2つの戦略を提案する。
ガラス箱の特徴を用いたLCMの自己評価の実現可能性を検証する。
関連論文リスト
- CriticBench: Evaluating Large Language Models as Critic [115.8286183749499]
CriticBenchは、大規模言語モデル(LLM)の4つの重要な批判能力次元を包括的かつ確実に評価するために設計された新しいベンチマークである。
CriticBenchは9つの多様なタスクを含み、それぞれがLLMの応答を様々な品質の粒度で批判する能力を評価する。
オープンソース LLM とクローズドソース LLM の広範な評価により,批判能力と課題,応答品質,モデルスケールの興味深い関係が明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - T-Eval: Evaluating the Tool Utilization Capability of Large Language
Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文 参考訳(メタデータ) (2023-12-21T17:02:06Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [44.401826163314716]
本稿では,強力なMLLMを裁判官として用いたMLLMの新たな評価パラダイムを提案する。
我々は,MLLMをペアワイズ方式でベンチマークし,モデル間での多彩な性能を示す。
我々のベンチマークの妥当性は、人間の評価と88.02%の合意に達したことを示している。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [26.489063021538577]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain
Conversations with Large Language Models [28.441725610692714]
大規模言語モデル(LLM)を用いたオープンドメイン会話のための多次元自動評価手法を提案する。
単一のモデルコールにおける会話品質の多次元を網羅する統合評価スキーマを利用する単一プロンプトベースの評価手法を設計する。
各種ベンチマークデータセットを用いたLCM-Evalの性能評価を行い,その有効性,効率,適応性について,最先端評価法と比較した。
論文 参考訳(メタデータ) (2023-05-23T05:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。