論文の概要: Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation
- arxiv url: http://arxiv.org/abs/2402.11894v2
- Date: Wed, 28 Feb 2024 04:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:55:40.142557
- Title: Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation
- Title(参考訳): 私を見ましたか。
信頼性とタイムリーな評価に向けたデータセット更新の自動化
- Authors: Jiahao Ying, Yixin Cao, Bo Wang, Wei Tang, Yizhe Yang, Shuicheng Yan
- Abstract要約: 大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
- 参考スコア(独自算出の注目度): 59.91488389687633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the expanding capabilities and pre-training data, Large Language
Models (LLMs) are facing increasingly serious evaluation challenges. On one
hand, the data leakage issue cause over-estimation on existing benchmarks. On
the other hand, periodically curating datasets manually is costly. In this
paper, we propose to automate dataset updates for reliable and timely
evaluation. The basic idea is to generate unseen and high-quality testing
samples based on existing ones to mitigate leakage issues. In specific, we
propose two strategies with systematically verification. First, the mimicking
strategy employs LLMs to create new samples resembling existing ones, to the
maximum extent preserving the stylistic of the original dataset. Our
experiments demonstrate its evaluation stability across multiple instantiations
and its effectiveness in dealing with data leakage issues in most cases.
Second, for the cases that mimicking dataset works poorly, we design an
extending strategy that adjusts the difficulty of the generated samples
according to varying cognitive levels. This not only makes our evaluation more
systematic, but also, with a balanced difficulty, even discern model
capabilities better at fine-grained levels.
- Abstract(参考訳): 拡張能力と事前学習データのため、Large Language Models (LLM) はますます深刻な評価課題に直面している。
一方、データ漏洩問題は既存のベンチマークに過大評価を引き起こす。
一方、定期的にデータセットを手動でキュレートするのはコストがかかる。
本稿では、信頼性とタイムリーな評価のためのデータセット更新を自動化することを提案する。
基本的な考え方は、未確認で高品質なテストサンプルを既存のサンプルに基づいて生成し、漏洩問題を軽減することである。
具体的には,体系的に検証する2つの戦略を提案する。
まず、模倣戦略はLLMを使って既存のものに似た新しいサンプルを作成し、元のデータセットのスタイリスティックを最大限に保存する。
本実験は,複数インスタンス間の評価安定性とデータ漏洩問題への対処の有効性を示す。
第二に、データセットの模倣がうまくいかない場合、様々な認知レベルに応じて生成されたサンプルの難易度を調整する拡張戦略を設計する。
これは、評価をより体系的にするだけでなく、バランスのとれた難易度で、よりきめ細かいレベルでモデルの能力を見極めます。
関連論文リスト
- Position: LLM Unlearning Benchmarks are Weak Measures of Progress [31.957968729934745]
既存のベンチマークでは、候補となる未学習手法の有効性について、過度に楽観的で誤解を招く可能性がある。
既存のベンチマークは特に、情報を忘れることと保持することの間に、さらに緩やかな依存関係をもたらす変更に対して脆弱である、と認識しています。
論文 参考訳(メタデータ) (2024-10-03T18:07:25Z) - Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection [1.4530711901349282]
TTA(Test-Time Adaptation)は、分散シフト下での機械学習モデルロバストネスの問題に対処するための有望な戦略として登場した。
我々は,サロゲートベースのhp選択戦略を用いて既存のTTA手法を評価し,その性能をより現実的に評価する。
論文 参考訳(メタデータ) (2024-07-19T11:58:30Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Re-Benchmarking Pool-Based Active Learning for Binary Classification [27.034593234956713]
アクティブラーニング(英: Active Learning)は、ラベル付きデータを取得する際の機械学習モデルの性能を大幅に向上させるパラダイムである。
アクティブな学習戦略を評価するためのベンチマークはいくつか存在するが、それらの発見はいくつかの誤解を示している。
この不一致は、コミュニティのために透明で再現可能なベンチマークを開発する動機となります。
論文 参考訳(メタデータ) (2023-06-15T08:47:50Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。