論文の概要: Market-Based Data Subset Selection -- Principled Aggregation of Multi-Criteria Example Utility
- arxiv url: http://arxiv.org/abs/2510.02456v1
- Date: Thu, 02 Oct 2025 18:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.117562
- Title: Market-Based Data Subset Selection -- Principled Aggregation of Multi-Criteria Example Utility
- Title(参考訳): 市場ベースデータサブセットの選択 -- マルチクレートリ例の原則的集約-
- Authors: Ashish Jha, Valentin Leplat, AH Phan,
- Abstract要約: コスト関数予測市場(LMSR)を介して、各サンプルを価格設定する市場ベースセレクタを提案する。
LMSRは指数重み付けと凸目標を備えた最大エントロピーアグリゲーションを実装していることを示す。
このフレームワークは、プロンプトレベルの推論と分類のための固定計算の下で、多信号データキュレーションを統一する。
- 参考スコア(独自算出の注目度): 1.7969777786551429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting a small yet useful subset of training data is hard because signals of example utility (uncertainty, rarity, diversity, etc.) are heterogeneous and typically combined with ad hoc weights. We propose a market-based selector that prices each example via a cost-function prediction market (LMSR), signals act as traders, a single liquidity parameter controls concentration, and topic-wise normalization stabilizes calibration. Token budgets are handled explicitly by a price-per-token rule $\rho=p/\ell^{\gamma}$, with $\gamma$ exposing an interpretable length bias; a lightweight diversity head improves coverage. We quantify coverage via topic cluster coverage and effective sample size. On the theory side, we show that LMSR implements a maximum-entropy aggregation with exponential weighting and a convex objective, yielding transparent knobs for aggregation strength. Empirically, on GSM8K (60k-token budget) the market with diversity achieves parity with strong single-signal baselines while reducing seed variance and incurring $<\!0.1$ GPU-hr selection overhead; on AGNews at kept=5-25\% the market (with light balancing) delivers competitive accuracy with improved balance and stability. The framework unifies multi-signal data curation under fixed compute for prompt-level reasoning and classification.
- Abstract(参考訳): トレーニングデータの小さいが有用なサブセットを選択することは、例えば実用性(不確実性、希少性、多様性など)の信号が不均一であり、典型的にはアドホックウェイトと組み合わせられるため、難しい。
本稿では,価格関数予測市場(LMSR)による各事例の価格設定,トレーダーとしてのシグナル,単一流動性パラメータによる濃度制御,トピックワイド正規化によるキャリブレーションの安定化を提案する。
トークン予算は、価格毎のルール$\rho=p/\ell^{\gamma}$で明示的に処理され、$\gamma$は解釈可能な長さバイアスを露呈する。
トピッククラスタのカバレッジと効果的なサンプルサイズによって、カバレッジを定量化します。
理論面では、LMSRは指数重み付けと凸目標を持つ最大エントロピーアグリゲーションを実装し、アグリゲーション強度に透明なノブを与えることを示す。
経験的に、GSM8K (60k-token budget)では、多様性のある市場は、強い単一信号ベースラインと同等でありながら、種子の分散を減らし、$<\!
0.1$ GPU-hrのオーバヘッド – AGNewsでは、(ライトバランシングを備えた)市場を保ちながら、バランスと安定性を改善した競合精度を提供する。
このフレームワークは、アクシデントレベルの推論と分類のための固定計算の下で、多信号データキュレーションを統一する。
関連論文リスト
- Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - Fair Bayesian Data Selection via Generalized Discrepancy Measures [11.013077130984973]
モデルパラメータとサンプル重みの群固有の後続分布を共有中心分布と整合させることにより、公平性を確保するデータ選択フレームワークを提案する。
我々のフレームワークは、ワッサーシュタイン距離、平均誤差の最大値、および$f$-divergenceなど、様々な分布差によるフレキシブルアライメントをサポートしている。
ベンチマークデータセットを用いた実験の結果,提案手法は既存のデータ選択法やモデルベースフェアネス法を公平性と精度で一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-11-10T12:28:04Z) - Rebalancing with Calibrated Sub-classes (RCS): A Statistical Fusion-based Framework for Robust Imbalanced Classification across Modalities [16.993547305381327]
Rebalancing with Calibrated Sub-classes (RCS)は、ロバストな不均衡な分類のための新しい分散キャリブレーションフレームワークである。
RCSはガウス成分の加重混合により、多数および中間クラスの分布から統計情報を融合する。
論文 参考訳(メタデータ) (2025-10-10T00:06:13Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Powerful batch conformal prediction for classification [0.9374652839580183]
ラベル付けされていない例のラベルに推論するために、$n$ラベル付き例の校正サンプルが観察される。
共形$p$-値の組み合わせで有効な推論を行うための一般的なレシピを提供する。
また、バッチスコアを集約し、さらに強力な方法も導入しています。
論文 参考訳(メタデータ) (2024-11-04T16:32:13Z) - Minimax and Communication-Efficient Distributed Best Subset Selection with Oracle Property [0.358439716487063]
大規模データの爆発はシングルマシンシステムの処理能力を上回っている。
分散推論への伝統的なアプローチは、高次元データセットにおいて真の疎性を達成するのにしばしば苦労する。
そこで本稿では,これらの問題に対処する2段階分散ベストサブセット選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-30T13:22:08Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Online covariance estimation for stochastic gradient descent under
Markovian sampling [20.02012768403544]
位数$Obig(sqrtd,n-1/8(log n)1/4big)$の収束率は、状態依存および状態依存マルコフサンプリングの下で確立される。
本手法はロジスティック回帰を用いた戦略分類に適用され, 学習中の特徴を適応的に修正し, 対象クラス分類に影響を与える。
論文 参考訳(メタデータ) (2023-08-03T00:21:30Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - Robustifying Markowitz [3.154269505086154]
金融時系列のヘビーテール特性は、実際にはこれらの重みの不安定な変動の原因である。
我々は,世界最小のMarkowitzポートフォリオのコストと重みを安定化するためのツールボックスを提案する。
我々は、ロバスト化されたポートフォリオが縮小ベースのポートフォリオや制約されたポートフォリオよりも低いターンオーバーに達することを実証した。
論文 参考訳(メタデータ) (2022-12-28T18:09:14Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z) - Stream-based Active Learning with Verification Latency in Non-stationary
Environments [6.883906273999368]
本研究では, 有限, 時間可変, 未知の検証遅延が, 概念ドリフトの有無がALアプローチに与える影響について検討する。
PRopagateは、要求されたがまだ知られていないラベルを予測する遅延独立ユーティリティ推定器である。
提案手法が常に最先端の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-14T08:51:15Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Supercharging Imbalanced Data Learning With Energy-based Contrastive
Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。
本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。
これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文 参考訳(メタデータ) (2020-11-25T00:13:11Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。