論文の概要: Improving Model Evaluation using SMART Filtering of Benchmark Datasets
- arxiv url: http://arxiv.org/abs/2410.20245v1
- Date: Sat, 26 Oct 2024 18:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:23.542634
- Title: Improving Model Evaluation using SMART Filtering of Benchmark Datasets
- Title(参考訳): ベンチマークデータセットのSMARTフィルタリングによるモデル評価の改善
- Authors: Vipul Gupta, Candace Ross, David Pantoja, Rebecca J. Passonneau, Megan Ung, Adina Williams,
- Abstract要約: 本稿では,既存のベンチマークデータセットから高品質なサンプルのサブセットを選択する新しい手法を提案する。
提案手法は3つのフィルタリング基準を適用し, (i) 簡単な例, (ii) データ汚染例, (iii) 互いに類似した例を除去する。
SMARTの3つの選択QAデータセットに対する有効性を示す。
- 参考スコア(独自算出の注目度): 19.731378662304497
- License:
- Abstract: One of the most challenging problems facing NLP today is evaluation. Some of the most pressing issues pertain to benchmark saturation, data contamination, and diversity in the quality of test examples. To address these concerns, we propose Selection Methodology for Accurate, Reduced, and Targeted (SMART) filtering, a novel approach to select a high-quality subset of examples from existing benchmark datasets by systematically removing less informative and less challenging examples. Our approach applies three filtering criteria, removing (i) easy examples, (ii) data-contaminated examples, and (iii) examples that are similar to each other based on distance in an embedding space. We demonstrate the effectiveness of SMART on three multiple choice QA datasets, where our methodology increases efficiency by reducing dataset size by 48\% on average, while increasing Pearson correlation with rankings from ChatBot Arena, a more open-ended human evaluation setting. Our method enables us to be more efficient, whether using SMART to make new benchmarks more challenging or to revitalize older datasets, while still preserving the relative model rankings.
- Abstract(参考訳): 現在NLPが直面している最も難しい問題の1つは、評価である。
最も差し迫った問題のいくつかは、ベンチマーク飽和、データ汚染、そしてテスト例の品質の多様性に関するものである。
これらの問題に対処するために,既存のベンチマークデータセットから高品質なサンプルのサブセットを選択する新しい手法であるSMART (Selection Methodology for Accurate, Reduced and Targeted) filteringを提案する。
我々の手法は3つのフィルタリング基準を適用し、除去する。
(i)簡単な例
(ii)データ汚染例及び
(三 埋め込み空間内の距離に基づいて互いに類似した例。)
そこでは,よりオープンな評価環境であるChatBot ArenaのランキングとPearsonの相関性を高めつつ,データセットサイズを平均48\%削減することで,SMARTの有効性を示す。
SMARTを用いて新しいベンチマークをより困難にするか、古いデータセットを再活性化するか、相対モデルランキングを保ちながら、より効率的になる。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [38.39395973523944]
本稿では,データ選択のための3段階のスキームを提案し,既存の作品のレビューを行う。
データ特化ラベルとモデル特化ラベルを併用したよりターゲット的な手法の方が効率が良いことが判明した。
論文 参考訳(メタデータ) (2024-06-20T08:58:58Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Adversarially Constructed Evaluation Sets Are More Challenging, but May
Not Be Fair [23.87794015063672]
より困難なデータセットを構築するための戦略として、敵対的なデータセット作成が提案されている。
評価データをフィルタするためにAFLiteアルゴリズムを適用し、18種類の対戦モデルに対して実験を行う。
AFLiteは、より難しい例を選択し、より強力な敵モデルを使用するように、評価されたモデルの性能を低下させる。
論文 参考訳(メタデータ) (2021-11-16T01:45:26Z) - GOLD: Improving Out-of-Scope Detection in Dialogues using Data
Augmentation [41.04593978694591]
金のテクニックは、既存のデータを拡張して、低データ状態で動作するより良いOOS検出器を訓練する。
3つのベンチマークを対象とした実験では、上位のGOLDモデルは、すべての主要なメトリクスで既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-09-07T13:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。