Fugu-MT 論文翻訳(概要): A Cram\'er Distance perspective on Non-crossing Quantile Regression in Distributional Reinforcement Learning

論文の概要: A Cram\'er Distance perspective on Non-crossing Quantile Regression in Distributional Reinforcement Learning

arxiv url: http://arxiv.org/abs/2110.00535v1
Date: Fri, 1 Oct 2021 17:00:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-04 14:44:40.909334
Title: A Cram\'er Distance perspective on Non-crossing Quantile Regression in Distributional Reinforcement Learning
Title（参考訳）: 分布強化学習における非交叉分位回帰のクレーム距離視点
Authors: Alix Lh\'eritier and Nicolas Bondoux
Abstract要約: QR-DQNのような量子ベースのメソッドは、任意の分布を階段分布のパラメトリックサブセットに投影する。本研究では,不確実性に基づく探索戦略におけるQR-DQNの性能向上のために,量子化の単調性制約が示されていることを示す。そこで我々は,新しいアルゴリズムを用いてクラム距離を計算し,優れたトレーニング性能を実現する,新しい非交差ニューラルネットワークアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 2.28438857884398
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Distributional reinforcement learning (DRL) extends the value-based approach by using a deep convolutional network to approximate the full distribution over future returns instead of the mean only, providing a richer signal that leads to improved performances. Quantile-based methods like QR-DQN project arbitrary distributions onto a parametric subset of staircase distributions by minimizing the 1-Wasserstein distance, however, due to biases in the gradients, the quantile regression loss is used instead for training, guaranteeing the same minimizer and enjoying unbiased gradients. Recently, monotonicity constraints on the quantiles have been shown to improve the performance of QR-DQN for uncertainty-based exploration strategies. The contribution of this work is in the setting of fixed quantile levels and is twofold. First, we prove that the Cram\'er distance yields a projection that coincides with the 1-Wasserstein one and that, under monotonicity constraints, the squared Cram\'er and the quantile regression losses yield collinear gradients, shedding light on the connection between these important elements of DRL. Second, we propose a novel non-crossing neural architecture that allows a good training performance using a novel algorithm to compute the Cram\'er distance, yielding significant improvements over QR-DQN in a number of games of the standard Atari 2600 benchmark.
Abstract（参考訳）: 分散強化学習(DRL)は、深い畳み込みネットワークを用いて、平均値のみではなく将来のリターンに対する完全な分布を近似し、よりリッチな信号を提供することにより、性能の向上につながる。 QR-DQNのような量子ベースの手法は、1-ワッサーシュタイン距離を最小化して階段分布のパラメトリック部分集合に任意の分布を投影するが、勾配のバイアスのため、量子回帰損失は代わりにトレーニングに使われ、同じ最小化を保証し、不偏勾配を楽しむ。近年,不確実性に基づく探索戦略におけるQR-DQNの性能向上のために,量子化の単調性制約が示されている。この研究の貢献は、固定量子レベルの設定であり、2倍である。まず, 1-wasserstein と一致する射影と, 1-wasserstein と一致する射影と, 単調性制約下では, 四角形空間と四角形回帰損失はコリニア勾配を生じさせ, これらの重要な要素間の接続に光をあてる。第2に,新しいアルゴリズムを用いてClam\'er距離を計算し,標準のAtari 2600ベンチマークの多くのゲームにおいてQR-DQNよりも大幅に改善された非交差ニューラルネットワークを提案する。

関連論文リスト

Pixel to Gaussian: Ultra-Fast Continuous Super-Resolution with 2D Gaussian Modeling [50.34513854725803]
Arbitrary-scale Super- resolution (ASSR) は、低解像度(LR)入力から任意のアップサンプリング係数で高解像度(HR)イメージを再構成することを目的としている。本稿では,Gaussian Splattingを用いたLR画像から2次元連続HR信号を明示的に再構成する,Pixel-to-Gaussianパラダイムを用いた新しいContinuousSRフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-09T13:43:57Z)
A Stein Gradient Descent Approach for Doubly Intractable Distributions [5.63014864822787]
そこで本研究では,2重に抽出可能な分布を推定するために,モンテカルロ・スタイン変分勾配勾配(MC-SVGD)法を提案する。提案手法は,後続分布に匹敵する推論性能を提供しながら,既存のアルゴリズムよりもかなりの計算ゲインを達成する。
論文参考訳（メタデータ） (2024-10-28T13:42:27Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文参考訳（メタデータ） (2023-09-29T15:24:48Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Federated Optimization Algorithms with Random Reshuffling and Gradient Compression [2.7554288121906296]
勾配圧縮法と非置換サンプリング法を初めて解析する。制御イテレートを用いて勾配量子化から生じる分散を減少させる方法を示す。既存のアルゴリズムを改善するいくつかの設定について概説する。
論文参考訳（メタデータ） (2022-06-14T17:36:47Z)
Error-Correcting Neural Networks for Two-Dimensional Curvature Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文参考訳（メタデータ） (2022-01-22T05:14:40Z)
Communication-Efficient Federated Learning via Quantized Compressed Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文参考訳（メタデータ） (2021-11-30T02:13:54Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Probabilistic partition of unity networks: clustering based deep approximation [0.0]
ユニタリネットワーク(POU-Nets)の分割は、回帰とPDEの解に対する代数収束率を実現することができる。ガウス雑音モデルを用いてPOU-Netを拡張し、最大可算損失の勾配に基づく一般化を導出できる確率的一般化を得る。本研究では,高次元・低次元での性能を定量化するためのベンチマークを行い,高次元空間内のデータの潜在次元にのみ依存することを示す。
論文参考訳（メタデータ） (2021-07-07T08:02:00Z)
Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。 CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文参考訳（メタデータ） (2021-06-20T04:28:20Z)
Variance Reduction for Deep Q-Learning using Stochastic Recursive Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文参考訳（メタデータ） (2020-07-25T00:54:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。