論文の概要: Using Low-Discrepancy Points for Data Compression in Machine Learning: An Experimental Comparison
- arxiv url: http://arxiv.org/abs/2407.07450v1
- Date: Wed, 10 Jul 2024 08:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:31:45.652581
- Title: Using Low-Discrepancy Points for Data Compression in Machine Learning: An Experimental Comparison
- Title(参考訳): 機械学習におけるデータ圧縮のための低差点を用いた実験的検討
- Authors: Simone Göttlich, Jacob Heieck, Andreas Neuenkirch,
- Abstract要約: ニューラルネットワークのトレーニングのために,低差分点に基づく2つの手法を探索し,大規模なデータセットを削減する。
1つ目はDickとFeischlの手法で、これはデジタルネットと平均化手順に依存している。
ディジタルネットを用いた第2の手法を構築するが、平均化ではなくクラスタリングを行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-discrepancy points (also called Quasi-Monte Carlo points) are deterministically and cleverly chosen point sets in the unit cube, which provide an approximation of the uniform distribution. We explore two methods based on such low-discrepancy points to reduce large data sets in order to train neural networks. The first one is the method of Dick and Feischl [4], which relies on digital nets and an averaging procedure. Motivated by our experimental findings, we construct a second method, which again uses digital nets, but Voronoi clustering instead of averaging. Both methods are compared to the supercompress approach of [14], which is a variant of the K-means clustering algorithm. The comparison is done in terms of the compression error for different objective functions and the accuracy of the training of a neural network.
- Abstract(参考訳): 低差分点(英: Low-discrepancy point)または準モンテカルロ点(英: Quasi-Monte Carlo point)は、単位立方体内の決定的かつ巧妙に選択された点集合であり、一様分布の近似を与える。
ニューラルネットワークのトレーニングのために,そのような低差点に基づく2つの手法を探索し,大規模なデータセットを削減する。
1つはDick and Feischl[4]の手法で、これはデジタルネットと平均化手順に依存している。
実験結果に触発され,デジタルネットを用いた第2の手法を構築した。
どちらの手法も、K平均クラスタリングアルゴリズムの変種である[14]の超圧縮アプローチと比較される。
この比較は、異なる目的関数に対する圧縮誤差とニューラルネットワークのトレーニングの精度の観点から行われる。
関連論文リスト
- What to Do When Your Discrete Optimization Is the Size of a Neural
Network? [24.546550334179486]
ニューラルネットワークを用いた機械学習アプリケーションは、離散最適化問題を解くことを含む。
離散的な設定で使用される古典的なアプローチは、大きなニューラルネットワークに対してうまくスケールしない。
連続経路(CP)法は,前者およびモンテカルロ法(MC)法を純粋に表現し,後者を表現している。
論文 参考訳(メタデータ) (2024-02-15T21:57:43Z) - Learning A Disentangling Representation For PU Learning [18.94726971543125]
本稿では、ラベルのないデータを2つのクラスタに投影するロス関数を用いて、ニューラルネットワークに基づくデータ表現を学習することを提案する。
提案手法の性能向上を実証する PU データのシミュレーション実験を行った。
論文 参考訳(メタデータ) (2023-10-05T18:33:32Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Hyperdimensional Computing for Efficient Distributed Classification with
Randomized Neural Networks [5.942847925681103]
本研究では,データを中央に保存することも共有することもできない状況下で利用できる分散分類について検討する。
ローカルな分類器を他のエージェントと共有する場合に、ロッキーな圧縮アプローチを適用することにより、分散分類のためのより効率的な解を提案する。
論文 参考訳(メタデータ) (2021-06-02T01:33:56Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Deep Magnification-Flexible Upsampling over 3D Point Clouds [103.09504572409449]
本稿では,高密度点雲を生成するためのエンドツーエンド学習ベースのフレームワークを提案する。
まずこの問題を明示的に定式化し、重みと高次近似誤差を判定する。
そこで我々は,高次改良とともに,統一重みとソート重みを適応的に学習する軽量ニューラルネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-25T14:00:18Z) - Data-Independent Structured Pruning of Neural Networks via Coresets [21.436706159840018]
本稿では, 圧縮率と将来の試験試料の近似誤差とのトレードオフが証明可能な最初の効率的な構造化プルーニングアルゴリズムを提案する。
これまでの作業とは異なり、コアセットはデータ独立であり、逆数を含む任意の入力$xin mathbbRd$に対して関数の精度を確実に保証します。
論文 参考訳(メタデータ) (2020-08-19T08:03:09Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。