論文の概要: Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation
- arxiv url: http://arxiv.org/abs/2402.11894v2
- Date: Wed, 28 Feb 2024 04:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:55:40.142557
- Title: Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation
- Title(参考訳): 私を見ましたか。
信頼性とタイムリーな評価に向けたデータセット更新の自動化
- Authors: Jiahao Ying, Yixin Cao, Bo Wang, Wei Tang, Yizhe Yang, Shuicheng Yan
- Abstract要約: 大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
- 参考スコア(独自算出の注目度): 59.91488389687633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the expanding capabilities and pre-training data, Large Language
Models (LLMs) are facing increasingly serious evaluation challenges. On one
hand, the data leakage issue cause over-estimation on existing benchmarks. On
the other hand, periodically curating datasets manually is costly. In this
paper, we propose to automate dataset updates for reliable and timely
evaluation. The basic idea is to generate unseen and high-quality testing
samples based on existing ones to mitigate leakage issues. In specific, we
propose two strategies with systematically verification. First, the mimicking
strategy employs LLMs to create new samples resembling existing ones, to the
maximum extent preserving the stylistic of the original dataset. Our
experiments demonstrate its evaluation stability across multiple instantiations
and its effectiveness in dealing with data leakage issues in most cases.
Second, for the cases that mimicking dataset works poorly, we design an
extending strategy that adjusts the difficulty of the generated samples
according to varying cognitive levels. This not only makes our evaluation more
systematic, but also, with a balanced difficulty, even discern model
capabilities better at fine-grained levels.
- Abstract(参考訳): 拡張能力と事前学習データのため、Large Language Models (LLM) はますます深刻な評価課題に直面している。
一方、データ漏洩問題は既存のベンチマークに過大評価を引き起こす。
一方、定期的にデータセットを手動でキュレートするのはコストがかかる。
本稿では、信頼性とタイムリーな評価のためのデータセット更新を自動化することを提案する。
基本的な考え方は、未確認で高品質なテストサンプルを既存のサンプルに基づいて生成し、漏洩問題を軽減することである。
具体的には,体系的に検証する2つの戦略を提案する。
まず、模倣戦略はLLMを使って既存のものに似た新しいサンプルを作成し、元のデータセットのスタイリスティックを最大限に保存する。
本実験は,複数インスタンス間の評価安定性とデータ漏洩問題への対処の有効性を示す。
第二に、データセットの模倣がうまくいかない場合、様々な認知レベルに応じて生成されたサンプルの難易度を調整する拡張戦略を設計する。
これは、評価をより体系的にするだけでなく、バランスのとれた難易度で、よりきめ細かいレベルでモデルの能力を見極めます。
関連論文リスト
- ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Position: LLM Unlearning Benchmarks are Weak Measures of Progress [31.957968729934745]
既存のベンチマークでは、候補となる未学習手法の有効性について、過度に楽観的で誤解を招く可能性がある。
既存のベンチマークは特に、情報を忘れることと保持することの間に、さらに緩やかな依存関係をもたらす変更に対して脆弱である、と認識しています。
論文 参考訳(メタデータ) (2024-10-03T18:07:25Z) - Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection [1.4530711901349282]
TTA(Test-Time Adaptation)は、分散シフト下での機械学習モデルロバストネスの問題に対処するための有望な戦略として登場した。
我々は,サロゲートベースのhp選択戦略を用いて既存のTTA手法を評価し,その性能をより現実的に評価する。
論文 参考訳(メタデータ) (2024-07-19T11:58:30Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Re-Benchmarking Pool-Based Active Learning for Binary Classification [27.034593234956713]
アクティブラーニング(英: Active Learning)は、ラベル付きデータを取得する際の機械学習モデルの性能を大幅に向上させるパラダイムである。
アクティブな学習戦略を評価するためのベンチマークはいくつか存在するが、それらの発見はいくつかの誤解を示している。
この不一致は、コミュニティのために透明で再現可能なベンチマークを開発する動機となります。
論文 参考訳(メタデータ) (2023-06-15T08:47:50Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。