論文の概要: From Points to Coalitions: Hierarchical Contrastive Shapley Values for Prioritizing Data Samples
- arxiv url: http://arxiv.org/abs/2512.19363v1
- Date: Mon, 22 Dec 2025 13:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.761973
- Title: From Points to Coalitions: Hierarchical Contrastive Shapley Values for Prioritizing Data Samples
- Title(参考訳): 論点から結束へ:データサンプルの優先順位付けのための階層的コントラストの共有価値
- Authors: Canran Xiao, Jiabao Dou, Zhiming Lin, Zong Ke, Liwei Hou,
- Abstract要約: Hierarchical Contrastive Data Valuation (HCDV)は、対照的に幾何学的な表現を学ぶためのフレームワークである。
HCDVは、決定境界を鋭くし、曲率ベースの滑らかさを通じて規則化する例に報酬を与える。
タブラル、ビジョン、ストリーミング、45MサンプルのCTRタスクに加えて、OpenDataValスイートでは、HCDVの精度が+5ppまで向上し、バリュエーション時間を最大100倍に削減し、拡張フィルタリング、低レイテンシのストリーミング更新、公正なマーケットプレースペイアウトといったタスクを直接サポートしている。
- 参考スコア(独自算出の注目度): 3.660947142840319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How should we quantify the value of each training example when datasets are large, heterogeneous, and geometrically structured? Classical Data-Shapley answers in principle, but its O(n!) complexity and point-wise perspective are ill-suited to modern scales. We propose Hierarchical Contrastive Data Valuation (HCDV), a three-stage framework that (i) learns a contrastive, geometry-preserving representation, (ii) organizes the data into a balanced coarse-to-fine hierarchy of clusters, and (iii) assigns Shapley-style payoffs to coalitions via local Monte-Carlo games whose budgets are propagated downward. HCDV collapses the factorial burden to O(T sum_{l} K_{l}) = O(T K_max log n), rewards examples that sharpen decision boundaries, and regularizes outliers through curvature-based smoothness. We prove that HCDV approximately satisfies the four Shapley axioms with surplus loss O(eta log n), enjoys sub-Gaussian coalition deviation tilde O(1/sqrt{T}), and incurs at most k epsilon_infty regret for top-k selection. Experiments on four benchmarks--tabular, vision, streaming, and a 45M-sample CTR task--plus the OpenDataVal suite show that HCDV lifts accuracy by up to +5 pp, slashes valuation time by up to 100x, and directly supports tasks such as augmentation filtering, low-latency streaming updates, and fair marketplace payouts.
- Abstract(参考訳): データセットが大きく、均一で、幾何学的に構造化されている場合、各トレーニングサンプルの価値を定量化するにはどうすればよいのか?
古典的なデータ共有は原則として答えるが、O(n!)の複雑さとポイント・ワイズ・パースペクティブは現代のスケールには不適である。
階層型コントラストデータ評価(HCDV)を提案する。
(i)対照的な幾何保存表現を学ぶ。
(II)データをクラスタの粗大な階層に整理し、
(iii) 予算が下方へ伝播しているモンテカルロのローカルゲームを通じて、シャプリースタイルのペイオフを連立に割り当てる。
HCDV は O(T sum_{l} K_{l}) = O(T K_max log n) への因子的重荷を崩壊させ、決定境界を鋭くする例を報償し、曲率に基づく滑らかさを通じて外れ値の正則化を行う。
我々は、HCDVが余剰損失 O(eta log n) の4つのシャプリー公理をほぼ満足し、準ガウス的連立偏差 tilde O(1/sqrt{T}) を享受し、ほとんどの k 個のエプシロン_infty がトップk選択を後悔していることを証明した。
タブラル、ビジョン、ストリーミング、45MサンプルのCTRタスクに加えて、OpenDataValスイートでは、HCDVの精度が+5ppまで向上し、バリュエーション時間を最大100倍に削減し、拡張フィルタリング、低レイテンシのストリーミング更新、公正なマーケットプレースペイアウトといったタスクを直接サポートしている。
関連論文リスト
- ICP-4D: Bridging Iterative Closest Point and LiDAR Panoptic Segmentation [44.68614934602709]
ICP-4Dは、空間的および時間的推論をインスタンスレベルの点集合間の幾何学的関係を通して統一する訓練不要のフレームワークである。
雑音のあるインスタンス予測の下での相関を安定化するために、シンクホーンに基づくソフトマッチングを導入する。
SemanticKITTI と Panoptic nuScenes の2つの実験により,我々の手法が常に最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-12-22T03:13:08Z) - Geometric Data Valuation via Leverage Scores [0.2538209532048866]
本稿では,統計レバレッジスコアに基づくShapleyデータ評価の幾何学的代替手法を提案する。
我々のスコアはシャプリー評価のダミー、効率、対称性の公理を満たすことを示す。
また、レバレッジサンプリングされたサブセットのトレーニングは、パラメータと予測リスクが全データ最適化の$O(varepsilon)$以内のモデルを生成することを示す。
論文 参考訳(メタデータ) (2025-11-03T22:20:50Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Geometric Median Matching for Robust k-Subset Selection from Noisy Data [75.86423267723728]
最適分解点1/2のロバストな推定器であるGeometric Medianを利用する新しいk-subset選択法を提案する。
提案手法は, k-subset を反復的に選択し,部分集合の平均が(潜在的に)ノイズデータセットの GM に近似し,任意の汚損の下でもロバスト性を確保する。
論文 参考訳(メタデータ) (2025-04-01T09:22:05Z) - Federated Learning Resilient to Byzantine Attacks and Data Heterogeneity [59.17297282373628]
本稿では、データに対する悪意ある攻撃の文脈におけるグラディエント学習(FL)について述べる。
本稿では,収束解析と損失関数の中央値を用いた新しい平均ロバストアルゴリズム(RAGA)を提案する。
論文 参考訳(メタデータ) (2024-03-20T08:15:08Z) - NeRCC: Nested-Regression Coded Computing for Resilient Distributed
Prediction Serving Systems [18.85527080950587]
NeRCCは、近似符号化コンピューティングのための一般的なストラグラー耐性フレームワークである。
NeRCCは、幅広いストラグラーにおける元の予測を正確に近似し、最先端の予測を最大23%上回った。
論文 参考訳(メタデータ) (2024-02-06T20:31:15Z) - Structured Sparse R-CNN for Direct Scene Graph Generation [16.646937866282922]
本稿では,構造スパースR-CNN(Structured Sparse R-CNN)と呼ばれる,単純な,疎結合で統一された関係検出フレームワークを提案する。
提案手法の鍵となるのは,学習可能な三重項クエリと構造化三重項検出器のセットである。
我々は,ビジュアルゲノムとオープンイメージの2つのベンチマークで実験を行い,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-06-21T02:24:20Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Quaternion Equivariant Capsule Networks for 3D Point Clouds [58.566467950463306]
本稿では,3次元回転と翻訳に同値な点雲を処理するための3次元カプセルモジュールを提案する。
カプセル間の動的ルーティングをよく知られたWeiszfeldアルゴリズムに接続する。
オペレーターに基づいて、ポーズから幾何学をアンタングルするカプセルネットワークを構築します。
論文 参考訳(メタデータ) (2019-12-27T13:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。