論文の概要: Active Slices for Sliced Stein Discrepancy
- arxiv url: http://arxiv.org/abs/2102.03159v1
- Date: Fri, 5 Feb 2021 13:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 14:52:27.213164
- Title: Active Slices for Sliced Stein Discrepancy
- Title(参考訳): Sliced Stein Disrepancy のためのアクティブスライス
- Authors: Wenbo Gong, Kaibo Zhang, Yingzhen Li, Jos\'e Miguel Hern\'andez-Lobato
- Abstract要約: Sliced Stein discrepancy (SSD)とそのカーネル化された変種は、良好なテストと高次元でのモデル学習において有望な成功を収めた。
この課題に対する事前勾配に基づく最適化手法は準最適結果を返す。
本稿では,アクティブな部分空間構築とスペクトル分解のアイデアに基づいて,そのようなスライシング方向を求める高速アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.627921269693747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sliced Stein discrepancy (SSD) and its kernelized variants have demonstrated
promising successes in goodness-of-fit tests and model learning in high
dimensions. Despite their theoretical elegance, their empirical performance
depends crucially on the search of optimal slicing directions to discriminate
between two distributions. Unfortunately, previous gradient-based optimisation
approaches for this task return sub-optimal results: they are computationally
expensive, sensitive to initialization, and they lack theoretical guarantees
for convergence. We address these issues in two steps. First, we provide
theoretical results stating that the requirement of using optimal slicing
directions in the kernelized version of SSD can be relaxed, validating the
resulting discrepancy with finite random slicing directions. Second, given that
good slicing directions are crucial for practical performance, we propose a
fast algorithm for finding such slicing directions based on ideas of active
sub-space construction and spectral decomposition. Experiments on
goodness-of-fit tests and model learning show that our approach achieves both
improved performance and faster convergence. Especially, we demonstrate a
14-80x speed-up in goodness-of-fit tests when comparing with gradient-based
alternatives.
- Abstract(参考訳): Sliced Stein discrepancy (SSD)とそのカーネル化された変種は、良好なテストと高次元でのモデル学習において有望な成功を収めた。
理論上の優雅さにもかかわらず、その経験的性能は2つの分布を区別する最適なスライシング方向の探索に大きく依存する。
残念ながら、このタスクに対する従来の勾配に基づく最適化アプローチは、計算コストが高く、初期化に敏感であり、収束の理論的保証が欠如している。
これらの問題を2つのステップで解決する。
まず,ssdのカーネル化バージョンにおける最適スライシング方向の使用要件を緩和し,有限ランダムスライシング方向による結果の不一致を検証できることを示す理論的結果を提供する。
第2に,良好なスライシング方向が実用的性能に不可欠であることを踏まえ,能動部分空間構成とスペクトル分解の考え方に基づくスライシング方向を求める高速アルゴリズムを提案する。
適合性テストとモデル学習の実験は、我々のアプローチが性能の向上とより高速な収束の両方を達成することを示している。
特に,グラデーションベースの代替品と比較した場合,14~80倍の速度アップを示す。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Accelerating Stochastic Probabilistic Inference [1.599072005190786]
変分推論(SVI)は確率モデルの良好な後部近似を求める能力により、ますます魅力的になっている。
最先端のSVIアルゴリズムのほとんど全てが一階最適化に基づいており、しばしば収束率の低下に悩まされている。
我々は二階法と変分推論のギャップを二階法に基づく変分推論手法によって埋める。
論文 参考訳(メタデータ) (2022-03-15T01:19:12Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。