論文の概要: GPU-Accelerated Optimizer-Aware Evaluation of Submodular Exemplar
Clustering
- arxiv url: http://arxiv.org/abs/2101.08763v1
- Date: Thu, 21 Jan 2021 18:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:50:42.864360
- Title: GPU-Accelerated Optimizer-Aware Evaluation of Submodular Exemplar
Clustering
- Title(参考訳): GPU加速オプティマイザ-サブモジュール外乱クラスタリングの評価
- Authors: Philipp-Jan Honysz, Sebastian Buschj\"ager, Katharina Morik
- Abstract要約: サブモジュール関数の最適化は、クラスタリングを実行する実行可能な方法を構成する。
強近似保証と実現可能な最適化 w.r.t.
ストリーミングデータはこのクラスタリングアプローチが好都合です
exemplarベースのクラスタリングは、可能なサブモジュラー関数の1つであるが、高い計算複雑性に苦しむ。
半精度のGPU計算は、シングル精度のシングルスレッドCPU計算と比較して452倍の高速化を実現した。
- 参考スコア(独自算出の注目度): 5.897728689802829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimization of submodular functions constitutes a viable way to perform
clustering. Strong approximation guarantees and feasible optimization w.r.t.
streaming data make this clustering approach favorable. Technically, submodular
functions map subsets of data to real values, which indicate how
"representative" a specific subset is. Optimal sets might then be used to
partition the data space and to infer clusters. Exemplar-based clustering is
one of the possible submodular functions, but suffers from high computational
complexity. However, for practical applications, the particular real-time or
wall-clock run-time is decisive. In this work, we present a novel way to
evaluate this particular function on GPUs, which keeps the necessities of
optimizers in mind and reduces wall-clock run-time. To discuss our GPU
algorithm, we investigated both the impact of different run-time critical
problem properties, like data dimensionality and the number of data points in a
subset, and the influence of required floating-point precision. In reproducible
experiments, our GPU algorithm was able to achieve competitive speedups of up
to 72x depending on whether multi-threaded computation on CPUs was used for
comparison and the type of floating-point precision required. Half-precision
GPU computation led to large speedups of up to 452x compared to
single-precision, single-thread CPU computations.
- Abstract(参考訳): 部分モジュラ関数の最適化はクラスタリングを実行するための実行可能な方法を構成する。
強近似保証と実現可能な最適化 w.r.t.
ストリーミングデータはこのクラスタリングアプローチが好都合です
技術的には、サブモジュラ関数はデータのサブセットを実際の値にマップする。
最適なセットは、データ空間を分割し、クラスタを推論するために使われる。
exemplarベースのクラスタリングは、可能なサブモジュラー関数の1つであるが、高い計算複雑性に苦しむ。
しかし、実用的なアプリケーションでは、特定のリアルタイムまたはウォールクロックのランタイムが決定的です。
本稿では,GPU上での特定の機能の評価方法を提案する。これは最適化器の必要を念頭に置いて,ウォールタイムの実行時間を短縮する。
我々は,データ次元やサブセット内のデータポイント数など,異なる実行時臨界問題特性の影響と,必要な浮動小数点精度の影響について検討した。
再現可能な実験では,CPU上のマルチスレッド計算を比較対象とし,浮動小数点精度のタイプに応じて,最大72倍の競合高速化を実現した。
半精度のGPU計算は、シングル精度のシングルスレッドCPU計算と比較して452倍の高速化を実現した。
関連論文リスト
- Implementation and Analysis of GPU Algorithms for Vecchia Approximation [0.8057006406834466]
Vecchia Approximationは計算複雑性を減らすために広く使われており、恥ずかしい並列アルゴリズムで計算することができる。
Vecchia Approximationのためにマルチコアソフトウェアが開発されたが、グラフィックス処理ユニット(GPU)上で動作するように設計されたソフトウェアは不足している。
我々の新しい手法は他の2つより優れており、GpGpU Rパッケージに表示されます。
論文 参考訳(メタデータ) (2024-07-03T01:24:44Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。