論文の概要: Consensus-Driven Active Model Selection
- arxiv url: http://arxiv.org/abs/2507.23771v1
- Date: Thu, 31 Jul 2025 17:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.215626
- Title: Consensus-Driven Active Model Selection
- Title(参考訳): 合意駆動型アクティブモデル選択
- Authors: Justin Kay, Grant Van Horn, Subhransu Maji, Daniel Sheldon, Sara Beery,
- Abstract要約: 本稿では,候補モデルからの予測を用いたアクティブモデル選択手法を提案し,テストデータポイントのラベル付けを優先する。
提案手法は,カテゴリとデータポイントの関係をモデル化し,コンセンサス駆動のアクティブモデル選択を行う。
モデル選択シナリオをキャプチャする26のベンチマークタスクの集合をキュレートすることで、我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 29.150990754584978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread availability of off-the-shelf machine learning models poses a challenge: which model, of the many available candidates, should be chosen for a given data analysis task? This question of model selection is traditionally answered by collecting and annotating a validation dataset -- a costly and time-intensive process. We propose a method for active model selection, using predictions from candidate models to prioritize the labeling of test data points that efficiently differentiate the best candidate. Our method, CODA, performs consensus-driven active model selection by modeling relationships between classifiers, categories, and data points within a probabilistic framework. The framework uses the consensus and disagreement between models in the candidate pool to guide the label acquisition process, and Bayesian inference to update beliefs about which model is best as more information is collected. We validate our approach by curating a collection of 26 benchmark tasks capturing a range of model selection scenarios. CODA outperforms existing methods for active model selection significantly, reducing the annotation effort required to discover the best model by upwards of 70% compared to the previous state-of-the-art. Code and data are available at https://github.com/justinkay/coda.
- Abstract(参考訳): 市販の機械学習モデルの広範な利用は、課題を生じさせる: 与えられたデータ分析タスクに対して、利用可能な候補のうち、どのモデルを選択するべきか?
モデル選択のこの疑問は、伝統的に、検証データセット(コストと時間を要するプロセス)を収集し、注釈付けすることで答えられる。
本稿では,最適な候補を効率よく識別するテストデータポイントのラベル付けを優先するために,候補モデルからの予測を用いたアクティブモデル選択手法を提案する。
提案手法は,確率的フレームワーク内の分類器,カテゴリ,データポイント間の関係をモデル化し,コンセンサス駆動のアクティブモデル選択を行う。
このフレームワークは、候補プール内のモデル間のコンセンサスと不一致を利用してラベル取得プロセスを導く。
モデル選択シナリオをキャプチャする26のベンチマークタスクの集合をキュレートすることで、我々のアプローチを検証する。
CODAは、アクティブなモデル選択のための既存の手法よりも優れており、過去の最先端技術と比較して、最高のモデルを見つけるのに必要なアノテーションの労力を70%以上削減している。
コードとデータはhttps://github.com/justinkay/coda.comで公開されている。
関連論文リスト
- All models are wrong, some are useful: Model Selection with Limited Labels [49.62984196182567]
本稿では,事前学習した分類器をラベル効率で選択するフレームワークであるMODEL SELECTORを紹介する。
MODEL SELECTOR はラベル付きデータの必要性を劇的に減らし,最良あるいは最良に近い性能のモデルを選択することを示す。
モデル選択におけるMODEL SELECTORのロバスト性をさらに強調し, 最良モデルを選択する場合, ラベル付けコストを最大72.41%削減する。
論文 参考訳(メタデータ) (2024-10-17T14:45:56Z) - Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。
既存の調査では、微調整フェーズの詳細な調査を見落としている。
特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文 参考訳(メタデータ) (2024-06-20T08:58:58Z) - Towards Fundamentally Scalable Model Selection: Asymptotically Fast Update and Selection [40.85209520973634]
理想的なモデル選択スキームは、候補モデルの大きなプール上で2つの操作を効率的にサポートすべきである。
モデル選択に対する従来の解決策は、これらの2つの操作のうちの少なくとも1つに対して高い計算複雑性を必要とする。
モデル埋め込みを実証的に実現したStandardized Embedderを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:57:49Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Budgeted Online Model Selection and Fine-Tuning via Federated Learning [26.823435733330705]
オンラインモデル選択では、候補モデルのセットからモデルを選択して、データのストリームで予測を実行する。
その後の候補モデルの選択は、パフォーマンスに決定的な影響を与えます。
本稿では,学習者グループ(クライアント)が十分なメモリを持つサーバと対話するオンラインフェデレーションモデル選択フレームワークを提案する。
提案したアルゴリズムを用いて、クライアントとサーバは微調整モデルと協調して非定常環境に適応する。
論文 参考訳(メタデータ) (2024-01-19T04:02:49Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Contextual Active Model Selection [10.925932167673764]
本稿では,ラベル付けコストを最小限に抑えつつ,事前学習したモデルを積極的に選択する手法を提案する。
目的は、ラベル要求を制限しながら予測を行う最良のモデルを適応的に選択することである。
2つの新しいコンポーネントに依存した文脈的アクティブモデル選択アルゴリズムであるCAMSを提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - A linearized framework and a new benchmark for model selection for
fine-tuning [112.20527122513668]
異なるドメインで事前訓練されたモデルの集合からの微調整は、低データ体制におけるテストの精度を向上させる技術として現れている。
モデル選択のための2つの新しいベースライン - Label-Gradient と Label-Feature correlation を導入する。
我々のベンチマークでは、微調整されたイメージネットモデルと比較して、モデル動物園での精度向上が強調されている。
論文 参考訳(メタデータ) (2021-01-29T21:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。