論文の概要: Redistributor: Transforming Empirical Data Distributions
- arxiv url: http://arxiv.org/abs/2210.14219v1
- Date: Tue, 25 Oct 2022 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:41:14.474686
- Title: Redistributor: Transforming Empirical Data Distributions
- Title(参考訳): Redistributor: 経験的データ分散の変換
- Authors: Pavol Harar, Dennis Elbr\"achter, Monika D\"orfler, Kory D. Johnson
- Abstract要約: 提案するアルゴリズムとパッケージであるRedistributorは,スカラーサンプルの集合を所望の分布に従うように強制する。
このパッケージはPythonで実装されており、大きなデータセットを効率的に扱うように最適化されている。
- 参考スコア(独自算出の注目度): 0.4588028371034407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an algorithm and package, Redistributor, which forces a collection
of scalar samples to follow a desired distribution. When given independent and
identically distributed samples of some random variable $S$ and the continuous
cumulative distribution function of some desired target $T$, it provably
produces a consistent estimator of the transformation $R$ which satisfies
$R(S)=T$ in distribution. As the distribution of $S$ or $T$ may be unknown, we
also include algorithms for efficiently estimating these distributions from
samples. This allows for various interesting use cases in image processing,
where Redistributor serves as a remarkably simple and easy-to-use tool that is
capable of producing visually appealing results. The package is implemented in
Python and is optimized to efficiently handle large data sets, making it also
suitable as a preprocessing step in machine learning. The source code is
available at https://gitlab.com/paloha/redistributor.
- Abstract(参考訳): 提案するアルゴリズムとパッケージであるRedistributorは,スカラーサンプルの集合を所望の分布に従うように強制する。
ある確率変数 $S$ の独立かつ同一に分布するサンプルと所望の目標 $T$ の連続累積分布関数を与えられたとき、その分布において$R(S)=T$ を満たす変換の一貫した推定器を確実に生成する。
S$ あるいは $T$ の分布は未知であるため、これらの分布をサンプルから効率的に推定するアルゴリズムも含んでいる。
これにより、Redistributorは驚くほどシンプルで使いやすいツールとして機能し、視覚的に魅力的な結果を生み出すことができる。
このパッケージはpythonで実装されており、大規模なデータセットを効率的に処理するために最適化されている。
ソースコードはhttps://gitlab.com/paloha/redistributorで入手できる。
関連論文リスト
- Idempotent Generative Network [61.78905138698094]
本稿では,ニューラルネットワークを等質にトレーニングした生成モデリングのための新しい手法を提案する。
一等演算子は、初期アプリケーションを超えて結果を変更せずに順次適用できる演算子である。
ターゲット分布とソース分布の両方からの入力を処理することにより、モデルがターゲット多様体に完全に破損または修正されたデータを投影することがわかった。
論文 参考訳(メタデータ) (2023-11-02T17:59:55Z) - Robust Mean Estimation Without Moments for Symmetric Distributions [7.105512316884493]
大規模な対称分布に対して、ガウス的設定と同じ誤差を効率的に達成できることが示される。
この最適誤差にアプローチする効率的なアルゴリズムの列を提案する。
我々のアルゴリズムは、よく知られたフィルタリング手法の一般化に基づいている。
論文 参考訳(メタデータ) (2023-02-21T17:52:23Z) - Replicable Clustering [57.19013971737493]
我々は,統計学的な$k$-medians,統計学的な$k$-means,統計学的な$k$-centers問題のアルゴリズムをブラックボックス方式で近似ルーチンを用いて提案する。
理論的結果を検証するブラックボックスとしてsklearnの$k$-means++実装を用いた2次元合成分布の実験も行っている。
論文 参考訳(メタデータ) (2023-02-20T23:29:43Z) - Stochastic Approximation Approaches to Group Distributionally Robust
Optimization [96.26317627118912]
群分散ロバスト最適化(GDRO)
オンライン学習技術は、各ラウンドに必要なサンプル数をm$から1$に減らし、同じサンプルを保持する。
分布依存収束率を導出できる重み付きGDROの新規な定式化。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Perfect Sampling from Pairwise Comparisons [26.396901523831534]
分散分布$mathcalD$の与えられたアクセスから最適なサンプルを効率よく取得する方法を,サポート対象の要素のペア比較に限定して検討する。
固定分布が$mathcalD$と一致するマルコフ連鎖を設計し、過去からの結合技術を用いて正確なサンプルを得るアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-23T11:20:30Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z) - Downsampling for Testing and Learning in Product Distributions [24.48103093661132]
未知確率分布が $mathbbRd$ 上の積分布であるような分布自由なプロパティテストと学習問題について検討する。
ハーフスペースの交叉、しきい値関数、凸集合、および$k$交互関数などの多くの重要な関数のクラスでは、既知のアルゴリズムは、分布のサポートサイズに依存する複雑さを持つ。
本稿では,これらの問題を解消する一般手法として,ダウンログ(downlog)を提案する。
論文 参考訳(メタデータ) (2020-07-15T02:46:44Z) - Sampling from a $k$-DPP without looking at all items [58.30573872035083]
カーネル関数とサブセットサイズ$k$が与えられた場合、我々のゴールは、サブセットによって誘導されるカーネル行列の行列式に比例する確率を持つ$n$アイテムから$k$をサンプリングすることである(つまり$k$-DPP)。
既存の$k$-DPPサンプリングアルゴリズムは、すべての$n$アイテムを複数回パスする高価な前処理ステップを必要とするため、大規模なデータセットでは利用できない。
そこで我々は, 十分大きなデータの均一なサンプルを適応的に構築し, より小さな$k$のアイテムを効率よく生成するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-30T16:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。