論文の概要: Market-Based Data Subset Selection -- Principled Aggregation of Multi-Criteria Example Utility
- arxiv url: http://arxiv.org/abs/2510.02456v1
- Date: Thu, 02 Oct 2025 18:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.117562
- Title: Market-Based Data Subset Selection -- Principled Aggregation of Multi-Criteria Example Utility
- Title(参考訳): 市場ベースデータサブセットの選択 -- マルチクレートリ例の原則的集約-
- Authors: Ashish Jha, Valentin Leplat, AH Phan,
- Abstract要約: コスト関数予測市場(LMSR)を介して、各サンプルを価格設定する市場ベースセレクタを提案する。
LMSRは指数重み付けと凸目標を備えた最大エントロピーアグリゲーションを実装していることを示す。
このフレームワークは、プロンプトレベルの推論と分類のための固定計算の下で、多信号データキュレーションを統一する。
- 参考スコア(独自算出の注目度): 1.7969777786551429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting a small yet useful subset of training data is hard because signals of example utility (uncertainty, rarity, diversity, etc.) are heterogeneous and typically combined with ad hoc weights. We propose a market-based selector that prices each example via a cost-function prediction market (LMSR), signals act as traders, a single liquidity parameter controls concentration, and topic-wise normalization stabilizes calibration. Token budgets are handled explicitly by a price-per-token rule $\rho=p/\ell^{\gamma}$, with $\gamma$ exposing an interpretable length bias; a lightweight diversity head improves coverage. We quantify coverage via topic cluster coverage and effective sample size. On the theory side, we show that LMSR implements a maximum-entropy aggregation with exponential weighting and a convex objective, yielding transparent knobs for aggregation strength. Empirically, on GSM8K (60k-token budget) the market with diversity achieves parity with strong single-signal baselines while reducing seed variance and incurring $<\!0.1$ GPU-hr selection overhead; on AGNews at kept=5-25\% the market (with light balancing) delivers competitive accuracy with improved balance and stability. The framework unifies multi-signal data curation under fixed compute for prompt-level reasoning and classification.
- Abstract(参考訳): トレーニングデータの小さいが有用なサブセットを選択することは、例えば実用性(不確実性、希少性、多様性など)の信号が不均一であり、典型的にはアドホックウェイトと組み合わせられるため、難しい。
本稿では,価格関数予測市場(LMSR)による各事例の価格設定,トレーダーとしてのシグナル,単一流動性パラメータによる濃度制御,トピックワイド正規化によるキャリブレーションの安定化を提案する。
トークン予算は、価格毎のルール$\rho=p/\ell^{\gamma}$で明示的に処理され、$\gamma$は解釈可能な長さバイアスを露呈する。
トピッククラスタのカバレッジと効果的なサンプルサイズによって、カバレッジを定量化します。
理論面では、LMSRは指数重み付けと凸目標を持つ最大エントロピーアグリゲーションを実装し、アグリゲーション強度に透明なノブを与えることを示す。
経験的に、GSM8K (60k-token budget)では、多様性のある市場は、強い単一信号ベースラインと同等でありながら、種子の分散を減らし、$<\!
0.1$ GPU-hrのオーバヘッド – AGNewsでは、(ライトバランシングを備えた)市場を保ちながら、バランスと安定性を改善した競合精度を提供する。
このフレームワークは、アクシデントレベルの推論と分類のための固定計算の下で、多信号データキュレーションを統一する。
関連論文リスト
- Powerful batch conformal prediction for classification [0.9374652839580183]
ラベル付けされていない例のラベルに推論するために、$n$ラベル付き例の校正サンプルが観察される。
共形$p$-値の組み合わせで有効な推論を行うための一般的なレシピを提供する。
また、バッチスコアを集約し、さらに強力な方法も導入しています。
論文 参考訳(メタデータ) (2024-11-04T16:32:13Z) - Online covariance estimation for stochastic gradient descent under
Markovian sampling [20.02012768403544]
位数$Obig(sqrtd,n-1/8(log n)1/4big)$の収束率は、状態依存および状態依存マルコフサンプリングの下で確立される。
本手法はロジスティック回帰を用いた戦略分類に適用され, 学習中の特徴を適応的に修正し, 対象クラス分類に影響を与える。
論文 参考訳(メタデータ) (2023-08-03T00:21:30Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Robustifying Markowitz [3.154269505086154]
金融時系列のヘビーテール特性は、実際にはこれらの重みの不安定な変動の原因である。
我々は,世界最小のMarkowitzポートフォリオのコストと重みを安定化するためのツールボックスを提案する。
我々は、ロバスト化されたポートフォリオが縮小ベースのポートフォリオや制約されたポートフォリオよりも低いターンオーバーに達することを実証した。
論文 参考訳(メタデータ) (2022-12-28T18:09:14Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。