論文の概要: PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization
- arxiv url: http://arxiv.org/abs/2306.05087v2
- Date: Fri, 24 May 2024 06:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 00:15:41.101284
- Title: PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization
- Title(参考訳): PandaLM: LLM命令チューニング最適化のための自動評価ベンチマーク
- Authors: Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang,
- Abstract要約: 審査用大言語モデル PandaLM は、いくつかの大きな言語モデルが与えられた優れたモデルを区別するために訓練されている。
PandaLMは、相対的簡潔さ、明快さ、指示への固執、包括性、形式性などの重要な主観的要因に対処する。
PandaLMはGPT-3.5の評価能力の93.75%、テストデータセットのF1スコアの88.28%を達成している。
- 参考スコア(独自算出の注目度): 63.55408755562274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning large language models (LLMs) remains a challenging task, owing to the complexity of hyperparameter selection and the difficulty involved in evaluating the tuned models. To determine the optimal hyperparameters, an automatic, robust, and reliable evaluation benchmark is essential. However, establishing such a benchmark is not a trivial task due to the challenges associated with evaluation accuracy and privacy protection. In response to these challenges, we introduce a judge large language model, named PandaLM, which is trained to distinguish the superior model given several LLMs. PandaLM's focus extends beyond just the objective correctness of responses, which is the main focus of traditional evaluation datasets. It addresses vital subjective factors such as relative conciseness, clarity, adherence to instructions, comprehensiveness, and formality. To ensure the reliability of PandaLM, we collect a diverse human-annotated test dataset, where all contexts are generated by humans and labels are aligned with human preferences. Our results indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluation ability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLM enables the evaluation of LLM to be fairer but with less cost, evidenced by significant improvements achieved by models tuned through PandaLM compared to their counterparts trained with default Alpaca's hyperparameters. In addition, PandaLM does not depend on API-based evaluations, thus avoiding potential data leakage. All resources of PandaLM are released at https://github.com/WeOpenML/PandaLM.
- Abstract(参考訳): 大規模言語モデル(LLM)のチューニングは、ハイパーパラメータ選択の複雑さと調整モデルの評価の難しさのため、依然として難しい課題である。
最適なハイパーパラメータを決定するためには、自動的、堅牢で信頼性の高い評価ベンチマークが不可欠である。
しかし、評価精度とプライバシ保護に関わる課題のため、そのようなベンチマークを確立することは簡単な作業ではない。
これらの課題に応えて,複数のLLMが与えられた優れたモデルを識別する訓練を施した,PandaLMという判断用大言語モデルを導入する。
PandaLMの焦点は、従来の評価データセットの主な焦点である応答の客観的な正しさに留まらない。
相対的簡潔さ、明快さ、指示への固執、包括性、形式性などの重要な主観的要因に対処する。
PandaLMの信頼性を確保するために、我々は、人間によって生成されたすべてのコンテキストとラベルが人間の嗜好に合致する多様な人間アノテーションテストデータセットを収集する。
PandaLM-7BはGPT-3.5の評価能力の93.75%、テストデータセットのF1スコアの88.28%を達成している。
PandaLMは、デフォルトのアルパカのハイパーパラメーターで訓練されたモデルと比較して、PandaLMによって調整されたモデルによって達成された顕著な改善により、LCMの評価をより公平に、低コストで行えるようにした。
さらに、PandaLMはAPIベースの評価に依存しないので、潜在的なデータ漏洩を回避することができる。
PandaLMのすべてのリソースはhttps://github.com/WeOpenML/PandaLMで公開されている。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。