論文の概要: Stabilizing Q Learning Via Soft Mellowmax Operator
- arxiv url: http://arxiv.org/abs/2012.09456v2
- Date: Fri, 18 Dec 2020 02:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:20:23.539325
- Title: Stabilizing Q Learning Via Soft Mellowmax Operator
- Title(参考訳): ソフトメルローマックス演算子によるq学習の安定化
- Authors: Yaozhong Gan, Zhe Zhang, Xiaoyang Tan
- Abstract要約: Mellowmaxは学習と計画における収束行動を可能にする、微分可能で非拡張型ソフトマックス演算子である。
SM2演算子を多エージェント強化学習シナリオに適用することにより,安定な値関数近似と技術性能の状態を実現できることを示す。
- 参考スコア(独自算出の注目度): 12.208344427928466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning complicated value functions in high dimensional state space by
function approximation is a challenging task, partially due to that the
max-operator used in temporal difference updates can theoretically cause
instability for most linear or non-linear approximation schemes. Mellowmax is a
recently proposed differentiable and non-expansion softmax operator that allows
a convergent behavior in learning and planning. Unfortunately, the performance
bound for the fixed point it converges to remains unclear, and in practice, its
parameter is sensitive to various domains and has to be tuned case by case.
Finally, the Mellowmax operator may suffer from oversmoothing as it ignores the
probability being taken for each action when aggregating them. In this paper,
we address all the above issues with an enhanced Mellowmax operator, named SM2
(Soft Mellowmax). Particularly, the proposed operator is reliable, easy to
implement, and has provable performance guarantee, while preserving all the
advantages of Mellowmax. Furthermore, we show that our SM2 operator can be
applied to the challenging multi-agent reinforcement learning scenarios,
leading to stable value function approximation and state of the art
performance.
- Abstract(参考訳): 関数近似による高次元状態空間における複雑な値関数の学習は、時間差分更新に使用される最大演算子が、ほとんどの線形あるいは非線形近似スキームの不安定性を理論的に引き起こすため、難しい作業である。
mellowmaxは、最近提案された微分可能かつ非拡張ソフトマックス演算子であり、学習と計画において収束的な振る舞いを可能にする。
残念なことに、不動点に収束する性能は未だ不明であり、実際にはパラメータは様々な領域に敏感であり、ケースごとに調整されなければならない。
最後に、Mellowmax演算子は、アグリゲーション時に各アクションに対して取られる確率を無視するため、過度なスムーシングに悩まされることがある。
本稿では,SM2(Soft Mellowmax)と呼ばれる拡張Mellowmax演算子を用いて,上記の問題に対処する。
特に,提案した演算子は信頼性が高く,実装が容易で,Mellowmaxのすべての利点を保ちながら,保証可能な性能保証を備えている。
さらに, SM2演算子を多エージェント強化学習シナリオに適用することにより, 安定な値関数近似と技術性能の状態を実現できることを示す。
関連論文リスト
- MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。
入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:43Z) - Revisiting Logistic-softmax Likelihood in Bayesian Meta-Learning for Few-Shot Classification [4.813254903898101]
ロジスティック・ソフトマックスは、多クラスガウス過程分類におけるソフトマックス可能性の代替としてしばしば用いられる。
我々は,温度パラメータによるテクティタ事前信頼度を制御できるロジスティック・ソフトマックスの可能性を再検討し,再検討する。
提案手法では, 精度の高い不確実性推定値が得られ, 標準ベンチマークデータセットにおいて, 同等あるいは優れた結果が得られる。
論文 参考訳(メタデータ) (2023-10-16T13:20:13Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - Spectral Aware Softmax for Visible-Infrared Person Re-Identification [123.69049942659285]
Visible-infrared person re-identification (VI-ReID) は、異なるモードの歩行者画像とマッチングすることを目的としている。
既存の手法は依然として、単一モダリティ分類タスクで広く使われているソフトマックス損失訓練パラダイムに従っている。
そこで本研究では, スペクトル対応ソフトマックス(SA-Softmax)の損失について提案する。
論文 参考訳(メタデータ) (2023-02-03T02:57:18Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Exploring Alternatives to Softmax Function [0.5924831288313849]
ソフトマックス関数の代替としてテイラー・ソフトマックス, SM-ソフトマックス, 提案したSM-テイラー・ソフトマックスについて検討した。
異なるデータセット上の画像分類タスクに対する実験により、通常のソフトマックス関数よりも優れたSM-テイラーソフトマックス関数の構成が常に存在することが明らかとなった。
論文 参考訳(メタデータ) (2020-11-23T16:50:18Z) - Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions [73.33961743410876]
ソフトマックス関数は近似と滑らかさの2つの主要な効率尺度を持つ。
近似と滑らか性の異なる尺度に対する最適近似-滑らか性トレードオフを同定する。
これにより、新しいソフトマックス関数が生まれ、それぞれ異なる用途に最適である。
論文 参考訳(メタデータ) (2020-10-22T05:19:58Z) - Softmax Deep Double Deterministic Policy Gradients [37.23518654230526]
連続制御における値関数推定にボルツマンソフトマックス演算子を用いることを提案する。
また,ソフトマックス・ディープ・Deep Deterministic Policy Gradients (SD2) とソフトマックス・ディープ・ダブル・Deterministic Policy Gradients (SD3) の2つの新しいアルゴリズムを設計し,ソフトマックス・オペレータを単一および二重推定器上に構築する。
論文 参考訳(メタデータ) (2020-10-19T02:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。