論文の概要: How Many Validation Labels Do You Need? Exploring the Design Space of
Label-Efficient Model Ranking
- arxiv url: http://arxiv.org/abs/2312.01619v3
- Date: Sat, 17 Feb 2024 13:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:22:18.169189
- Title: How Many Validation Labels Do You Need? Exploring the Design Space of
Label-Efficient Model Ranking
- Title(参考訳): バリデーションラベルはいくつ必要ですか?
ラベル効率モデルランキングの設計領域の検討
- Authors: Zhengyu Hu, Jieyu Zhang, Yue Yu, Yuchen Zhuang, Hui Xiong
- Abstract要約: 本稿では,LEMR (Label-Efficient Model Ranking) を提案し,MoraBench Benchmarkを提案する。
LEMRは、未ラベルのバリデーションセットからインスタンスを戦略的にアノテートすることで、モデル選択におけるコストのかかるアノテーションの必要性を最小限にする新しいフレームワークである。
- 参考スコア(独自算出の注目度): 40.39898960460575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents LEMR (Label-Efficient Model Ranking) and introduces the
MoraBench Benchmark. LEMR is a novel framework that minimizes the need for
costly annotations in model selection by strategically annotating instances
from an unlabeled validation set. To evaluate LEMR, we leverage the MoraBench
Benchmark, a comprehensive collection of model outputs across diverse
scenarios. Our extensive evaluation across 23 different NLP tasks in
semi-supervised learning, weak supervision, and prompt selection tasks
demonstrates LEMR's effectiveness in significantly reducing labeling costs. Key
findings highlight the impact of suitable ensemble methods, uncertainty
sampling strategies, and model committee selection in enhancing model ranking
accuracy. LEMR, supported by the insights from MoraBench, provides a
cost-effective and accurate solution for model selection, especially valuable
in resource-constrained environments.
- Abstract(参考訳): 本稿では,lemr(label- efficient model ranking)とmorabenchベンチマークを紹介する。
LEMRは、未ラベルのバリデーションセットからインスタンスを戦略的にアノテートすることで、モデル選択におけるコストのかかるアノテーションの必要性を最小限にする新しいフレームワークである。
LEMRを評価するために、さまざまなシナリオにわたるモデル出力の包括的なコレクションであるMoraBench Benchmarkを利用する。
半教師付き学習,弱監督,迅速な選択タスクにおいて,23種類のNLPタスクにまたがる広範囲な評価は,ラベル付けコストを大幅に削減するLEMRの有効性を示す。
重要な知見は、適切なアンサンブル方法、不確実性サンプリング戦略、モデル評価精度向上のためのモデル委員会選択の影響である。
モラベンチの洞察によってサポートされているlemrは、モデル選択のためのコスト効率が高く正確なソリューションを提供する。
関連論文リスト
- All models are wrong, some are useful: Model Selection with Limited Labels [49.62984196182567]
本稿では,事前学習した分類器をラベル効率で選択するフレームワークであるMODEL SELECTORを紹介する。
MODEL SELECTOR はラベル付きデータの必要性を劇的に減らし,最良あるいは最良に近い性能のモデルを選択することを示す。
モデル選択におけるMODEL SELECTORのロバスト性をさらに強調し, 最良モデルを選択する場合, ラベル付けコストを最大72.41%削減する。
論文 参考訳(メタデータ) (2024-10-17T14:45:56Z) - LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。
LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。
マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-07-17T17:51:53Z) - Grade Score: Quantifying LLM Performance in Option Selection [0.0]
グレードスコア」は、大規模言語モデル(LLM)の一貫性と公平性を評価するために設計された新しい計量である
グレードスコアは、順序バイアスを測定するエントロピーと、選択安定性を評価するモード周波数を組み合わせる。
本研究は,グレードスコアを最適化するために,プロンプトエンジニアリングやオプションサンプリング戦略などの手法を探求する。
論文 参考訳(メタデータ) (2024-06-17T19:29:39Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Which LLM to Play? Convergence-Aware Online Model Selection with
Time-Increasing Bandits [43.65904435249823]
本稿では,モデルの性能向上を効果的に予測する帯域幅増加アルゴリズムTI-UCBを提案する。
本研究は,より効率的かつ経済的なモデル選択のために,増大する収束パターンを活用することの重要性を強調した。
論文 参考訳(メタデータ) (2024-03-11T23:52:46Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。
目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。
本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。