論文の概要: A Cram\'er Distance perspective on Non-crossing Quantile Regression in
Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.00535v1
- Date: Fri, 1 Oct 2021 17:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:44:40.909334
- Title: A Cram\'er Distance perspective on Non-crossing Quantile Regression in
Distributional Reinforcement Learning
- Title(参考訳): 分布強化学習における非交叉分位回帰のクレーム距離視点
- Authors: Alix Lh\'eritier and Nicolas Bondoux
- Abstract要約: QR-DQNのような量子ベースのメソッドは、任意の分布を階段分布のパラメトリックサブセットに投影する。
本研究では,不確実性に基づく探索戦略におけるQR-DQNの性能向上のために,量子化の単調性制約が示されていることを示す。
そこで我々は,新しいアルゴリズムを用いてクラム距離を計算し,優れたトレーニング性能を実現する,新しい非交差ニューラルネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional reinforcement learning (DRL) extends the value-based approach
by using a deep convolutional network to approximate the full distribution over
future returns instead of the mean only, providing a richer signal that leads
to improved performances. Quantile-based methods like QR-DQN project arbitrary
distributions onto a parametric subset of staircase distributions by minimizing
the 1-Wasserstein distance, however, due to biases in the gradients, the
quantile regression loss is used instead for training, guaranteeing the same
minimizer and enjoying unbiased gradients. Recently, monotonicity constraints
on the quantiles have been shown to improve the performance of QR-DQN for
uncertainty-based exploration strategies. The contribution of this work is in
the setting of fixed quantile levels and is twofold. First, we prove that the
Cram\'er distance yields a projection that coincides with the 1-Wasserstein one
and that, under monotonicity constraints, the squared Cram\'er and the quantile
regression losses yield collinear gradients, shedding light on the connection
between these important elements of DRL. Second, we propose a novel
non-crossing neural architecture that allows a good training performance using
a novel algorithm to compute the Cram\'er distance, yielding significant
improvements over QR-DQN in a number of games of the standard Atari 2600
benchmark.
- Abstract(参考訳): 分散強化学習(DRL)は、深い畳み込みネットワークを用いて、平均値のみではなく将来のリターンに対する完全な分布を近似し、よりリッチな信号を提供することにより、性能の向上につながる。
QR-DQNのような量子ベースの手法は、1-ワッサーシュタイン距離を最小化して階段分布のパラメトリック部分集合に任意の分布を投影するが、勾配のバイアスのため、量子回帰損失は代わりにトレーニングに使われ、同じ最小化を保証し、不偏勾配を楽しむ。
近年,不確実性に基づく探索戦略におけるQR-DQNの性能向上のために,量子化の単調性制約が示されている。
この研究の貢献は、固定量子レベルの設定であり、2倍である。
まず, 1-wasserstein と一致する射影と, 1-wasserstein と一致する射影と, 単調性制約下では, 四角形空間と四角形回帰損失はコリニア勾配を生じさせ, これらの重要な要素間の接続に光をあてる。
第2に,新しいアルゴリズムを用いてClam\'er距離を計算し,標準のAtari 2600ベンチマークの多くのゲームにおいてQR-DQNよりも大幅に改善された非交差ニューラルネットワークを提案する。
関連論文リスト
- A Stein Gradient Descent Approach for Doubly Intractable Distributions [5.63014864822787]
そこで本研究では,2重に抽出可能な分布を推定するために,モンテカルロ・スタイン変分勾配勾配(MC-SVGD)法を提案する。
提案手法は,後続分布に匹敵する推論性能を提供しながら,既存のアルゴリズムよりもかなりの計算ゲインを達成する。
論文 参考訳(メタデータ) (2024-10-28T13:42:27Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。
通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。
本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文 参考訳(メタデータ) (2023-09-29T15:24:48Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Federated Optimization Algorithms with Random Reshuffling and Gradient
Compression [2.7554288121906296]
勾配圧縮法と非置換サンプリング法を初めて解析する。
制御イテレートを用いて勾配量子化から生じる分散を減少させる方法を示す。
既存のアルゴリズムを改善するいくつかの設定について概説する。
論文 参考訳(メタデータ) (2022-06-14T17:36:47Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Probabilistic partition of unity networks: clustering based deep
approximation [0.0]
ユニタリネットワーク(POU-Nets)の分割は、回帰とPDEの解に対する代数収束率を実現することができる。
ガウス雑音モデルを用いてPOU-Netを拡張し、最大可算損失の勾配に基づく一般化を導出できる確率的一般化を得る。
本研究では,高次元・低次元での性能を定量化するためのベンチマークを行い,高次元空間内のデータの潜在次元にのみ依存することを示す。
論文 参考訳(メタデータ) (2021-07-07T08:02:00Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。