論文の概要: Toward Stable and Consistent Evaluation Results: A New Methodology for Base Model Evaluation
- arxiv url: http://arxiv.org/abs/2503.00812v1
- Date: Sun, 02 Mar 2025 09:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:55.295182
- Title: Toward Stable and Consistent Evaluation Results: A New Methodology for Base Model Evaluation
- Title(参考訳): 安定かつ一貫性のある評価結果に向けて:ベースモデル評価の新しい方法論
- Authors: Hongzhi Luan, Changxin Tian, Zhaoxin Huan, Xiaolu Zhang, Kunlong Chen, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: 事前トレーニングの初期段階では、ベースモデルには質問に答える能力がない。
ベースモデルとインストラクトモデルとの整合性:ベースモデルでは、対応するインストラクトモデルと比較して評価性能が劣っている。
本稿では,ベースモデルの評価を最適化する手法として,ベースモデル指向システム評価(BOSE)を提案する。
- 参考スコア(独自算出の注目度): 16.204198480150207
- License:
- Abstract: This paper poses two critical issues in evaluating base models (without post-training): (1) Unstable evaluation during training: in the early stages of pre-training, the models lack the capability to answer questions as required, leading to unstable evaluation results. This instability makes it difficult to provide solid conclusions to guide the training, especially for key experiments such as data ablation and scaling law. (2) Inconsistency between base and instruct models: base models generally exhibit poorer evaluation performance compared to corresponding instruct models. This gap poses a challenge for assessing whether a base model with better evaluation can truly lead to a better instruct model. To address these issues, we propose Base model Oriented Systematic Evaluation (BOSE), a method specifically designed to optimize the evaluation of base models. Specifically, BOSE introduces two key innovations: In-Context Light-instruction Prompt (ICLiP) for open-ended tasks and Blank-ppl for multi-choice tasks with candidate options, which transforms the standard perplexity (ppl) metric into a fill-in-the-blank format to mitigate early-stage evaluation fluctuations. Furthermore, we are the first to propose Kendall's rank correlation to quantitatively measure the evaluation stability and consistency. Experimental results demonstrate that BOSE significantly enhances both the stability of evaluations during pre-training and the consistency between base and instruct models, thereby providing more reliable guidance for the LLMs' training.
- Abstract(参考訳): 本論文は,基礎モデル評価において2つの重要な課題を提起する:(1)訓練中の不安定な評価:事前学習の初期段階では,必要な質問に答える能力が欠如しており,不安定な評価結果をもたらす。
この不安定さは、特にデータアブレーションやスケーリング法則といった重要な実験において、トレーニングをガイドするための確かな結論を提供するのを難しくする。
2) ベースモデルとインストラクトモデルとの整合性: ベースモデルは一般的に,対応するインストラクトモデルと比較して評価性能が劣っている。
このギャップは、より良い評価のベースモデルが本当により良いインストラクションモデルに導くことができるかどうかを評価する上で、課題となる。
これらの問題に対処するため,本研究では,ベースモデルの評価を最適化する手法であるベースモデル指向システム評価(BOSE)を提案する。
In-Context Light-Instruction Prompt (ICLiP) for open-ended task と Blank-ppl for multi-choice task with candidate options の2つの主要なイノベーションを紹介している。
さらに、我々は、評価安定性と一貫性を定量的に測定するために、Kendallのランク相関を初めて提案する。
実験の結果,BOSEは,事前学習時の評価の安定性とベースモデルとインストラクションモデルの整合性の両方を著しく向上させ,LLMのトレーニングの信頼性を高めた。
関連論文リスト
- Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Evaluating the Evaluators: Are Current Few-Shot Learning Benchmarks Fit
for Purpose? [11.451691772914055]
本稿では,タスクレベル評価に関する最初の研究について述べる。
数ショット設定における性能推定器の精度を測定した。
評価者の失敗の理由を, 多くの場合, 頑健であると考えられる理由について検討する。
論文 参考訳(メタデータ) (2023-07-06T02:31:38Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。