論文の概要: One Sample Fits All: Approximating All Probabilistic Values Simultaneously and Efficiently
- arxiv url: http://arxiv.org/abs/2410.23808v1
- Date: Thu, 31 Oct 2024 10:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:05.872429
- Title: One Sample Fits All: Approximating All Probabilistic Values Simultaneously and Efficiently
- Title(参考訳): 一つのサンプル:全ての確率的価値を同時に効率よく近似する
- Authors: Weida Li, Yaoliang Yu,
- Abstract要約: 機能属性やデータバリュエーションといったアプリケーションでは、確率的価値が近年注目を集めている。
サンプリングベクトルによってパラメータ化され,中間項を近似する1サンプル全フレームワークを提案する。
本研究では,ベータシャプリー値の収束率を1対1で評価した。
- 参考スコア(独自算出の注目度): 19.265709097637643
- License:
- Abstract: The concept of probabilistic values, such as Beta Shapley values and weighted Banzhaf values, has gained recent attention in applications like feature attribution and data valuation. However, exact computation of these values is often exponentially expensive, necessitating approximation techniques. Prior research has shown that the choice of probabilistic values significantly impacts downstream performance, with no universally superior option. Consequently, one may have to approximate multiple candidates and select the best-performing one. Although there have been many efforts to develop efficient estimators, none are intended to approximate all probabilistic values both simultaneously and efficiently. In this work, we embark on the first exploration of achieving this goal. Adhering to the principle of maximum sample reuse, we propose a one-sample-fits-all framework parameterized by a sampling vector to approximate intermediate terms that can be converted to any probabilistic value without amplifying scalars. Leveraging the concept of $ (\epsilon, \delta) $-approximation, we theoretically identify a key formula that effectively determines the convergence rate of our framework. By optimizing the sampling vector using this formula, we obtain i) a one-for-all estimator that achieves the currently best time complexity for all probabilistic values on average, and ii) a faster generic estimator with the sampling vector optimally tuned for each probabilistic value. Particularly, our one-for-all estimator achieves the fastest convergence rate on Beta Shapley values, including the well-known Shapley value, both theoretically and empirically. Finally, we establish a connection between probabilistic values and the least square regression used in (regularized) datamodels, showing that our one-for-all estimator can solve a family of datamodels simultaneously.
- Abstract(参考訳): Beta Shapley値や重み付けされたBanzhaf値といった確率的値の概念は、機能属性やデータバリュエーションといった応用において近年注目を集めている。
しかし、これらの値の正確な計算は指数関数的に高価であり、近似技術を必要とすることが多い。
従来の研究では、確率的値の選択は下流のパフォーマンスに大きく影響し、普遍的に優れた選択肢はないことが示されている。
したがって、複数の候補を近似し、最も優れた候補を選択する必要がある。
効率的な推定器の開発には多くの取り組みがあったが、全ての確率値を同時にかつ効率的に近似することを目的としていない。
本研究では,この目標を達成するための最初の調査に着手する。
最大標本再利用の原理に則って,スカラーを増幅することなく任意の確率値に変換可能な,サンプリングベクトルによってパラメータ化された1サンプル全フレームワークを提案する。
$ (\epsilon, \delta) $-approximation の概念を利用し、理論上、我々のフレームワークの収束率を効果的に決定する重要な公式を同定する。
この公式を用いてサンプリングベクトルを最適化することにより、我々は得られる。
一 平均上のすべての確率値について現在最高の時間複雑性を達成する一対一推定器
二 各確率値に最適に調整されたサンプリングベクトルを有するより高速な総合推定器
特に、我々の一対一推定器は、理論的にも経験的にもよく知られたシャプリー値を含むベータシャプリー値の収束速度を最速に達成する。
最後に、確率値と(正規化)データモデルで使用される最小二乗回帰との接続を確立し、我々の一対一推定器が同時にデータモデル群を解けることを示す。
関連論文リスト
- Stochastic optimization with arbitrary recurrent data sampling [2.1485350418225244]
最も一般的に使われているデータサンプリングアルゴリズムは、軽度な仮定の下にある。
特定のクラスの繰り返し最適化アルゴリズムに対して、他のプロパティは不要であることを示す。
我々は,データセットをカバーするサンプリングアルゴリズムを選択することで,収束を加速できることを示す。
論文 参考訳(メタデータ) (2024-01-15T14:04:50Z) - On diffusion-based generative models and their error bounds: The log-concave case with full convergence estimates [5.13323375365494]
我々は,強い対数対数データの下での拡散に基づく生成モデルの収束挙動を理論的に保証する。
スコア推定に使用される関数のクラスは、スコア関数上のリプシッツネスの仮定を避けるために、リプシッツ連続関数からなる。
この手法はサンプリングアルゴリズムにおいて最もよく知られた収束率をもたらす。
論文 参考訳(メタデータ) (2023-11-22T18:40:45Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - Bivariate Estimation-of-Distribution Algorithms Can Find an Exponential
Number of Optima [12.009357100208353]
本稿では,最適化アルゴリズムが大規模最適集合を処理する方法の研究を支援するために,テスト関数EqualBlocksOneMax(EBOM)を提案する。
EBOM は EBOM の理論的に理想的なモデルと非常によく似ており、このモデルは同じ最大確率で指数的に多くの最適値のそれぞれをサンプリングする。
論文 参考訳(メタデータ) (2023-10-06T06:32:07Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - A Stochastic Newton Algorithm for Distributed Convex Optimization [62.20732134991661]
均質な分散凸最適化のためのNewtonアルゴリズムを解析し、各マシンが同じ人口目標の勾配を計算する。
提案手法は,既存の手法と比較して,性能を損なうことなく,必要な通信ラウンドの数,頻度を低減できることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:51:10Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z) - Noise-Contrastive Estimation for Multivariate Point Processes [28.23193933174945]
本稿では,低コストな目的のノイズコントラスト推定手法を提案する。
モデルが保持データ上で同じレベルのログ化を実現するためには,機能評価が大幅に少なく,壁面時間も少なくする必要がある。
論文 参考訳(メタデータ) (2020-11-02T04:09:33Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators
with Massive Data [20.79270369203348]
既存の手法は主に高い計算効率のために置換されたサブサンプリングに焦点を当てている。
まず,準類似度推定の文脈で最適なサブサンプリング確率を導出する。
我々は,分散サブサンプリングフレームワークを開発し,全データの小さなパーティションで統計を同時に計算する。
論文 参考訳(メタデータ) (2020-05-21T02:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。