論文の概要: DISCO: Diversifying Sample Condensation for Efficient Model Evaluation
- arxiv url: http://arxiv.org/abs/2510.07959v1
- Date: Thu, 09 Oct 2025 08:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.966616
- Title: DISCO: Diversifying Sample Condensation for Efficient Model Evaluation
- Title(参考訳): DISCO:効率的なモデル評価のためのサンプル凝縮の多様化
- Authors: Alexander Rubinstein, Benjamin Raible, Martin Gubri, Seong Joon Oh,
- Abstract要約: コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
- 参考スコア(独自算出の注目度): 59.01400190971061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating modern machine learning models has become prohibitively expensive. Benchmarks such as LMMs-Eval and HELM demand thousands of GPU hours per model. Costly evaluation reduces inclusivity, slows the cycle of innovation, and worsens environmental impact. The typical approach follows two steps. First, select an anchor subset of data. Second, train a mapping from the accuracy on this subset to the final test result. The drawback is that anchor selection depends on clustering, which can be complex and sensitive to design choices. We argue that promoting diversity among samples is not essential; what matters is to select samples that $\textit{maximise diversity in model responses}$. Our method, $\textbf{Diversifying Sample Condensation (DISCO)}$, selects the top-k samples with the greatest model disagreements. This uses greedy, sample-wise statistics rather than global clustering. The approach is conceptually simpler. From a theoretical view, inter-model disagreement provides an information-theoretically optimal rule for such greedy selection. $\textbf{DISCO}$ shows empirical gains over prior methods, achieving state-of-the-art results in performance prediction across MMLU, Hellaswag, Winogrande, and ARC. Code is available here: https://github.com/arubique/disco-public.
- Abstract(参考訳): 現代の機械学習モデルの評価は違法に高価になっている。
LMMs-EvalやHELMなどのベンチマークでは、モデル毎に数千のGPU時間を必要としている。
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
典型的なアプローチは2つのステップに従う。
まず、データのアンカーサブセットを選択する。
次に、このサブセットの精度から最終テスト結果へのマッピングをトレーニングします。
欠点は、アンカーの選択がクラスタリングに依存することだ。
モデル応答における多様性を最大化する$\textit{maximise diversity}$を選択することが重要となる。
我々のメソッドである$\textbf{Diversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
これは、グローバルクラスタリングではなく、グリージーでサンプルワイズな統計を使用する。
アプローチは概念的にシンプルです。
理論的な観点から、モデル間の不一致は、そのような欲求選択に対して情報理論的に最適な規則を提供する。
$\textbf{DISCO}$は、従来のメソッドよりも経験的なゲインを示し、最先端の結果がMMLU、Hellaswag、Winogrande、ARCにまたがってパフォーマンスを予測する。
コードは、https://github.com/arubique/disco-public.comで入手できる。
関連論文リスト
- Linear-Time Demonstration Selection for In-Context Learning via Gradient Estimation [19.158395403281734]
例えば$n$の例があれば、$n$から$k$を素早く選択して、ダウンストリーム推論の条件付けとして役立てるにはどうすればよいでしょうか?
この問題は、迅速なチューニングとチェーン・オブ・ソート推論に幅広い応用がある。
勾配推定法は6つのデータセットに対して$mathbf1%$誤差の完全な推論の近似を導出することを示す。
論文 参考訳(メタデータ) (2025-08-27T15:59:47Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Variance Alignment Score: A Simple But Tough-to-Beat Data Selection
Method for Multimodal Contrastive Learning [17.40655778450583]
本稿では、Sigma_texttest, Sigma_irangle$という形式を持つVariance Alignment Score(VAS)という原則付き計量を提案する。
VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38評価セットに1.3%、高品質なデータセットCC12MのVTABに2.5%の差でベースラインを上回ります。
論文 参考訳(メタデータ) (2024-02-03T06:29:04Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - PL-$k$NN: A Parameterless Nearest Neighbors Classifier [0.24499092754102875]
k$-Nearest Neighborsは、多くの問題で使われている最も効果的で簡単なモデルの1つである。
本稿では、$k$の値を定義する必要性を回避した$k$-Nearest Neighbors分類器を提案する。
論文 参考訳(メタデータ) (2022-09-26T12:52:45Z) - Common Failure Modes of Subcluster-based Sampling in Dirichlet Process
Gaussian Mixture Models -- and a Deep-learning Solution [5.822529963339041]
Dirichlet Process Gaussian Mixture Model (DPGMM) は、クラスタの数が不明な場合にデータをクラスタリングするのによく用いられる。
1つの主要な DPGMM 推論パラダイムはサンプリングに依存している。
ここでは、既知の最先端のサンプルを考察し、その障害モードを分析し、改善方法を示す。
論文 参考訳(メタデータ) (2022-03-25T14:12:33Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。