論文の概要: Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation
- arxiv url: http://arxiv.org/abs/2402.11894v2
- Date: Wed, 28 Feb 2024 04:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:55:40.142557
- Title: Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation
- Title(参考訳): 私を見ましたか。
信頼性とタイムリーな評価に向けたデータセット更新の自動化
- Authors: Jiahao Ying, Yixin Cao, Bo Wang, Wei Tang, Yizhe Yang, Shuicheng Yan
- Abstract要約: 大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
- 参考スコア(独自算出の注目度): 59.91488389687633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the expanding capabilities and pre-training data, Large Language
Models (LLMs) are facing increasingly serious evaluation challenges. On one
hand, the data leakage issue cause over-estimation on existing benchmarks. On
the other hand, periodically curating datasets manually is costly. In this
paper, we propose to automate dataset updates for reliable and timely
evaluation. The basic idea is to generate unseen and high-quality testing
samples based on existing ones to mitigate leakage issues. In specific, we
propose two strategies with systematically verification. First, the mimicking
strategy employs LLMs to create new samples resembling existing ones, to the
maximum extent preserving the stylistic of the original dataset. Our
experiments demonstrate its evaluation stability across multiple instantiations
and its effectiveness in dealing with data leakage issues in most cases.
Second, for the cases that mimicking dataset works poorly, we design an
extending strategy that adjusts the difficulty of the generated samples
according to varying cognitive levels. This not only makes our evaluation more
systematic, but also, with a balanced difficulty, even discern model
capabilities better at fine-grained levels.
- Abstract(参考訳): 拡張能力と事前学習データのため、Large Language Models (LLM) はますます深刻な評価課題に直面している。
一方、データ漏洩問題は既存のベンチマークに過大評価を引き起こす。
一方、定期的にデータセットを手動でキュレートするのはコストがかかる。
本稿では、信頼性とタイムリーな評価のためのデータセット更新を自動化することを提案する。
基本的な考え方は、未確認で高品質なテストサンプルを既存のサンプルに基づいて生成し、漏洩問題を軽減することである。
具体的には,体系的に検証する2つの戦略を提案する。
まず、模倣戦略はLLMを使って既存のものに似た新しいサンプルを作成し、元のデータセットのスタイリスティックを最大限に保存する。
本実験は,複数インスタンス間の評価安定性とデータ漏洩問題への対処の有効性を示す。
第二に、データセットの模倣がうまくいかない場合、様々な認知レベルに応じて生成されたサンプルの難易度を調整する拡張戦略を設計する。
これは、評価をより体系的にするだけでなく、バランスのとれた難易度で、よりきめ細かいレベルでモデルの能力を見極めます。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Prior-Free Continual Learning with Unlabeled Data in the Wild [24.14279172551939]
本稿では,新しいタスクの学習モデルを段階的に更新するPFCL法を提案する。
PFCLはタスクのアイデンティティや以前のデータを知ることなく、新しいタスクを学習する。
実験の結果,PFCL法は3つの学習シナリオすべてにおいて,忘れを著しく軽減することがわかった。
論文 参考訳(メタデータ) (2023-10-16T13:59:56Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Stream-based active learning with linear models [0.7734726150561089]
生産において、製品情報を取得するためにランダム検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。
本稿では,ストリームベースのシナリオを学習者に順次提供するための新たな戦略を提案する。
未ラベルデータポイントの通知性にしきい値を設定することにより、意思決定プロセスの反復的な側面に取り組む。
論文 参考訳(メタデータ) (2022-07-20T13:15:23Z) - A Deep-Learning Intelligent System Incorporating Data Augmentation for
Short-Term Voltage Stability Assessment of Power Systems [9.299576471941753]
本稿では,電力系統のSTVSAにデータ拡張を取り入れた新しいディープラーニング知能システムを提案する。
半教師付きクラスタ学習を利用して、ラベル付きサンプルを元の小さなデータセットで取得する。
条件付き最小二乗生成逆数ネットワーク(LSGAN)ベースのデータ拡張を導入し、元のデータセットを拡張する。
論文 参考訳(メタデータ) (2021-12-05T11:40:54Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。