論文の概要: Market-Driven Subset Selection for Budgeted Training
- arxiv url: http://arxiv.org/abs/2510.02456v2
- Date: Mon, 20 Oct 2025 15:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.604474
- Title: Market-Driven Subset Selection for Budgeted Training
- Title(参考訳): 予算訓練のための市場主導型サブセット選択
- Authors: Ashish Jha, Valentin Leplat, AH Phan,
- Abstract要約: それぞれのトレーニング例を取引可能な契約として扱う,市場ベースのフレームワークを提案する。
厳格な60kの予算の下でのGSM8Kの数学的推論では、セレクタは強い単一信号基底線でパリティを達成する。
本フレームワークは,逐次的推論および分類タスクのための固定的な計算予算の下で,多信号データキュレーションを統一する。
- 参考スコア(独自算出の注目度): 1.7969777786551429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models on massive datasets is computationally expensive, yet empirical evidence suggests that substantial portions of training examples contribute minimally to final performance. Data subset selection addresses this inefficiency by identifying small, high-utility subsets under resource constraints. However, example utility is inherently multi-faceted, encompassing uncertainty, distributional rarity, and diversity signals that are heterogeneous and typically combined through ad hoc weighted sums lacking theoretical grounding. We propose a market-based framework that treats each training example as a tradeable contract and employs the Logarithmic Market Scoring Rule to aggregate multiple utility signals into coherent prices. Heterogeneous signals act as traders, a single liquidity parameter controls concentration versus smoothing, and topic-wise normalization ensures calibrated aggregation. Token budgets are handled explicitly through a price-per-token decision rule with an interpretable length-bias parameter. We establish theoretical connections to maximum-entropy aggregation and provide utility recovery guarantees under noisy but monotone signals. On GSM8K mathematical reasoning under strict 60k-token budgets, our selector achieves parity with strong single-signal baselines while exhibiting lower variance and incurring less than 0.1 GPU-hour overhead. On AGNews classification at 5-25\% retention rates, the market formulation delivers competitive accuracy with improved stability. Our framework unifies multi-signal data curation under fixed computational budgets for prompt-level reasoning and classification tasks.
- Abstract(参考訳): 大規模なデータセット上での大規模言語モデルのトレーニングは計算に費用がかかるが、実験的な証拠は、トレーニング例のかなりの部分が最終的なパフォーマンスに最小限に寄与していることを示している。
データサブセットの選択は、リソース制約の下で小さな高ユーティリティサブセットを識別することで、この非効率性に対処する。
しかし、例の効用は本質的に多面的であり、不確実性、分布の希薄性、多様性の信号を含む。
本稿では,各トレーニング事例を取引可能な契約として扱う市場ベースフレームワークを提案する。
不均一信号はトレーダーとして機能し、単一の流動性パラメータは濃度と平滑化を制御し、トピックワイド正規化は校正集約を保証する。
トークン予算は、解釈可能な長さバイアスパラメータを持つ価格毎の決定ルールを介して明示的に処理される。
我々は,最大エントロピーアグリゲーションに対する理論的接続を確立し,ノイズ信号とモノトーン信号の併用による回復保証を提供する。
厳格な60kの予算の下でのGSM8Kの数学的推論では、高い単信号ベースラインでパリティを達成し、低分散を示し、GPU時間オーバーヘッドは0.1以下である。
AGNewsの5-25\%の保持率での分類では、市場の定式化は安定性を改善して競争の正確さを提供する。
本フレームワークは,逐次的推論および分類タスクのための固定的な計算予算の下で,多信号データキュレーションを統一する。
関連論文リスト
- Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - Fair Bayesian Data Selection via Generalized Discrepancy Measures [11.013077130984973]
モデルパラメータとサンプル重みの群固有の後続分布を共有中心分布と整合させることにより、公平性を確保するデータ選択フレームワークを提案する。
我々のフレームワークは、ワッサーシュタイン距離、平均誤差の最大値、および$f$-divergenceなど、様々な分布差によるフレキシブルアライメントをサポートしている。
ベンチマークデータセットを用いた実験の結果,提案手法は既存のデータ選択法やモデルベースフェアネス法を公平性と精度で一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-11-10T12:28:04Z) - Rebalancing with Calibrated Sub-classes (RCS): A Statistical Fusion-based Framework for Robust Imbalanced Classification across Modalities [16.993547305381327]
Rebalancing with Calibrated Sub-classes (RCS)は、ロバストな不均衡な分類のための新しい分散キャリブレーションフレームワークである。
RCSはガウス成分の加重混合により、多数および中間クラスの分布から統計情報を融合する。
論文 参考訳(メタデータ) (2025-10-10T00:06:13Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Powerful batch conformal prediction for classification [0.9374652839580183]
ラベル付けされていない例のラベルに推論するために、$n$ラベル付き例の校正サンプルが観察される。
共形$p$-値の組み合わせで有効な推論を行うための一般的なレシピを提供する。
また、バッチスコアを集約し、さらに強力な方法も導入しています。
論文 参考訳(メタデータ) (2024-11-04T16:32:13Z) - Minimax and Communication-Efficient Distributed Best Subset Selection with Oracle Property [0.358439716487063]
大規模データの爆発はシングルマシンシステムの処理能力を上回っている。
分散推論への伝統的なアプローチは、高次元データセットにおいて真の疎性を達成するのにしばしば苦労する。
そこで本稿では,これらの問題に対処する2段階分散ベストサブセット選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-30T13:22:08Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Online covariance estimation for stochastic gradient descent under
Markovian sampling [20.02012768403544]
位数$Obig(sqrtd,n-1/8(log n)1/4big)$の収束率は、状態依存および状態依存マルコフサンプリングの下で確立される。
本手法はロジスティック回帰を用いた戦略分類に適用され, 学習中の特徴を適応的に修正し, 対象クラス分類に影響を与える。
論文 参考訳(メタデータ) (2023-08-03T00:21:30Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Robustifying Markowitz [3.154269505086154]
金融時系列のヘビーテール特性は、実際にはこれらの重みの不安定な変動の原因である。
我々は,世界最小のMarkowitzポートフォリオのコストと重みを安定化するためのツールボックスを提案する。
我々は、ロバスト化されたポートフォリオが縮小ベースのポートフォリオや制約されたポートフォリオよりも低いターンオーバーに達することを実証した。
論文 参考訳(メタデータ) (2022-12-28T18:09:14Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z) - Stream-based Active Learning with Verification Latency in Non-stationary
Environments [6.883906273999368]
本研究では, 有限, 時間可変, 未知の検証遅延が, 概念ドリフトの有無がALアプローチに与える影響について検討する。
PRopagateは、要求されたがまだ知られていないラベルを予測する遅延独立ユーティリティ推定器である。
提案手法が常に最先端の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-14T08:51:15Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Supercharging Imbalanced Data Learning With Energy-based Contrastive
Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。
本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。
これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文 参考訳(メタデータ) (2020-11-25T00:13:11Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。