論文の概要: Market-Driven Subset Selection for Budgeted Training
- arxiv url: http://arxiv.org/abs/2510.02456v2
- Date: Mon, 20 Oct 2025 15:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.604474
- Title: Market-Driven Subset Selection for Budgeted Training
- Title(参考訳): 予算訓練のための市場主導型サブセット選択
- Authors: Ashish Jha, Valentin Leplat, AH Phan,
- Abstract要約: それぞれのトレーニング例を取引可能な契約として扱う,市場ベースのフレームワークを提案する。
厳格な60kの予算の下でのGSM8Kの数学的推論では、セレクタは強い単一信号基底線でパリティを達成する。
本フレームワークは,逐次的推論および分類タスクのための固定的な計算予算の下で,多信号データキュレーションを統一する。
- 参考スコア(独自算出の注目度): 1.7969777786551429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models on massive datasets is computationally expensive, yet empirical evidence suggests that substantial portions of training examples contribute minimally to final performance. Data subset selection addresses this inefficiency by identifying small, high-utility subsets under resource constraints. However, example utility is inherently multi-faceted, encompassing uncertainty, distributional rarity, and diversity signals that are heterogeneous and typically combined through ad hoc weighted sums lacking theoretical grounding. We propose a market-based framework that treats each training example as a tradeable contract and employs the Logarithmic Market Scoring Rule to aggregate multiple utility signals into coherent prices. Heterogeneous signals act as traders, a single liquidity parameter controls concentration versus smoothing, and topic-wise normalization ensures calibrated aggregation. Token budgets are handled explicitly through a price-per-token decision rule with an interpretable length-bias parameter. We establish theoretical connections to maximum-entropy aggregation and provide utility recovery guarantees under noisy but monotone signals. On GSM8K mathematical reasoning under strict 60k-token budgets, our selector achieves parity with strong single-signal baselines while exhibiting lower variance and incurring less than 0.1 GPU-hour overhead. On AGNews classification at 5-25\% retention rates, the market formulation delivers competitive accuracy with improved stability. Our framework unifies multi-signal data curation under fixed computational budgets for prompt-level reasoning and classification tasks.
- Abstract(参考訳): 大規模なデータセット上での大規模言語モデルのトレーニングは計算に費用がかかるが、実験的な証拠は、トレーニング例のかなりの部分が最終的なパフォーマンスに最小限に寄与していることを示している。
データサブセットの選択は、リソース制約の下で小さな高ユーティリティサブセットを識別することで、この非効率性に対処する。
しかし、例の効用は本質的に多面的であり、不確実性、分布の希薄性、多様性の信号を含む。
本稿では,各トレーニング事例を取引可能な契約として扱う市場ベースフレームワークを提案する。
不均一信号はトレーダーとして機能し、単一の流動性パラメータは濃度と平滑化を制御し、トピックワイド正規化は校正集約を保証する。
トークン予算は、解釈可能な長さバイアスパラメータを持つ価格毎の決定ルールを介して明示的に処理される。
我々は,最大エントロピーアグリゲーションに対する理論的接続を確立し,ノイズ信号とモノトーン信号の併用による回復保証を提供する。
厳格な60kの予算の下でのGSM8Kの数学的推論では、高い単信号ベースラインでパリティを達成し、低分散を示し、GPU時間オーバーヘッドは0.1以下である。
AGNewsの5-25\%の保持率での分類では、市場の定式化は安定性を改善して競争の正確さを提供する。
本フレームワークは,逐次的推論および分類タスクのための固定的な計算予算の下で,多信号データキュレーションを統一する。
関連論文リスト
- Powerful batch conformal prediction for classification [0.9374652839580183]
ラベル付けされていない例のラベルに推論するために、$n$ラベル付き例の校正サンプルが観察される。
共形$p$-値の組み合わせで有効な推論を行うための一般的なレシピを提供する。
また、バッチスコアを集約し、さらに強力な方法も導入しています。
論文 参考訳(メタデータ) (2024-11-04T16:32:13Z) - Online covariance estimation for stochastic gradient descent under
Markovian sampling [20.02012768403544]
位数$Obig(sqrtd,n-1/8(log n)1/4big)$の収束率は、状態依存および状態依存マルコフサンプリングの下で確立される。
本手法はロジスティック回帰を用いた戦略分類に適用され, 学習中の特徴を適応的に修正し, 対象クラス分類に影響を与える。
論文 参考訳(メタデータ) (2023-08-03T00:21:30Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Robustifying Markowitz [3.154269505086154]
金融時系列のヘビーテール特性は、実際にはこれらの重みの不安定な変動の原因である。
我々は,世界最小のMarkowitzポートフォリオのコストと重みを安定化するためのツールボックスを提案する。
我々は、ロバスト化されたポートフォリオが縮小ベースのポートフォリオや制約されたポートフォリオよりも低いターンオーバーに達することを実証した。
論文 参考訳(メタデータ) (2022-12-28T18:09:14Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。