Fugu-MT 論文翻訳(概要): How Many Validation Labels Do You Need? Exploring the Design Space of Label-Efficient Model Ranking

論文の概要: How Many Validation Labels Do You Need? Exploring the Design Space of Label-Efficient Model Ranking

arxiv url: http://arxiv.org/abs/2312.01619v1
Date: Mon, 4 Dec 2023 04:20:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 16:22:54.969802
Title: How Many Validation Labels Do You Need? Exploring the Design Space of Label-Efficient Model Ranking
Title（参考訳）: バリデーションラベルはいくつ必要ですか? ラベル効率モデルランキングの設計領域の検討
Authors: Zhengyu Hu, Jieyu Zhang, Yue Yu, Yuchen Zhuang, Hui Xiong
Abstract要約: モデル選択タスクのアノテーションコストを削減するフレームワークであるLEMRを紹介する。 LEMRはラベル付け予算のごく一部で完全にラベル付けされたデータセットに匹敵する結果が得られることを示す。
参考スコア（独自算出の注目度）: 40.39898960460575
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The paper introduces LEMR, a framework that reduces annotation costs for model selection tasks. Our approach leverages ensemble methods to generate pseudo-labels, employs uncertainty sampling for target acquisition, and utilizes a Z-score mechanism for iterative committee reelection to refine model ranks. We present a systematic study across various selection metrics, demonstrating that LEMR achieves comparable results to fully labeled datasets with a fraction of the labeling budget. Our findings indicate that LEMR not only economizes the labeling effort in weak supervision and semi-supervised learning settings but also effectively guides prompt selection for large language models. With extensive experiments across 23 tasks, we reveal that our framework can dramatically decrease the labeling cost without compromising the accuracy of model selection, thereby offering a cost-effective alternative to traditional practices.
Abstract（参考訳）: 本稿では,モデル選択タスクのアノテーションコストを削減するフレームワークであるlemrを紹介する。本手法は,疑似ラベル生成にアンサンブル手法を活用し,目標獲得に不確実性サンプリングを活用し,反復委員会再選のためのz-score機構を用いてモデルランクを洗練する。本稿では,LEMRがラベル付け予算のごく一部を持つ完全ラベル付きデータセットに匹敵する結果が得られることを示す。この結果から,LEMRは,弱監督と半教師付き学習設定においてラベル付けの努力を損なうだけでなく,大規模言語モデルの迅速な選択を効果的に導くことが示唆された。 23のタスクにまたがる広範な実験により,モデル選択の精度を損なうことなく,ラベリングコストを劇的に削減できることを明らかにした。

関連論文リスト

LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文参考訳（メタデータ） (2025-10-01T12:52:25Z)
Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization [0.0]
大規模言語モデル(LLM)のトレーニング後のアライメントは、すべてのトークンがモデルのパフォーマンスに等しく寄与するわけではないため、重要な課題である。本稿では,プライオリティペア内の高インパクトトークンを優先するアライメント戦略を提案する。これらの情報的トークンに焦点をあてることで,計算オーバーヘッドを低減し,アライメントの忠実度を高める。
論文参考訳（メタデータ） (2025-07-10T12:58:45Z)
Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文参考訳（メタデータ） (2025-03-04T07:32:41Z)
SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。 SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文参考訳（メタデータ） (2025-02-28T19:27:29Z)
STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models [8.60556939977361]
マイクロエコノミック推論のための大規模言語モデル(LLM)を評価するためのベンチマークを開発する。供給と需要のロジックに重点を置いており、それぞれが最大10ドルドメイン、5ドルパースペクティブ、3ドルタイプで構成されています。我々は,小規模なオープンソースモデルから最先端技術まで,27ドルのLLMのケーススタディを通じて,我々のベンチマークの有用性を実証する。
論文参考訳（メタデータ） (2025-02-18T18:42:09Z)
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
All models are wrong, some are useful: Model Selection with Limited Labels [49.62984196182567]
本稿では,事前学習した分類器をラベル効率で選択するフレームワークであるMODEL SELECTORを紹介する。 MODEL SELECTOR はラベル付きデータの必要性を劇的に減らし,最良あるいは最良に近い性能のモデルを選択することを示す。モデル選択におけるMODEL SELECTORのロバスト性をさらに強調し, 最良モデルを選択する場合, ラベル付けコストを最大72.41%削減する。
論文参考訳（メタデータ） (2024-10-17T14:45:56Z)
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。 LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文参考訳（メタデータ） (2024-07-17T17:51:53Z)
Grade Score: Quantifying LLM Performance in Option Selection [0.0]
グレードスコア」は、大規模言語モデル(LLM)の一貫性と公平性を評価するために設計された新しい計量であるグレードスコアは、順序バイアスを測定するエントロピーと、選択安定性を評価するモード周波数を組み合わせる。本研究は,グレードスコアを最適化するために,プロンプトエンジニアリングやオプションサンプリング戦略などの手法を探求する。
論文参考訳（メタデータ） (2024-06-17T19:29:39Z)
Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。 DivBS(Diversified Batch Selection)を提案する。
論文参考訳（メタデータ） (2024-06-07T12:12:20Z)
Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文参考訳（メタデータ） (2024-06-07T04:52:46Z)
Which LLM to Play? Convergence-Aware Online Model Selection with Time-Increasing Bandits [43.65904435249823]
本稿では,モデルの性能向上を効果的に予測する帯域幅増加アルゴリズムTI-UCBを提案する。本研究は,より効率的かつ経済的なモデル選択のために,増大する収束パターンを活用することの重要性を強調した。
論文参考訳（メタデータ） (2024-03-11T23:52:46Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)
Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文参考訳（メタデータ） (2023-02-19T14:08:01Z)
Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文参考訳（メタデータ） (2022-07-13T08:22:22Z)
Characterizing Fairness Over the Set of Good Models Under Selective Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文参考訳（メタデータ） (2021-01-02T02:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。