論文の概要: The Point to Which Soft Actor-Critic Converges
- arxiv url: http://arxiv.org/abs/2303.01240v3
- Date: Thu, 18 May 2023 07:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 19:51:52.086894
- Title: The Point to Which Soft Actor-Critic Converges
- Title(参考訳): ソフトアクタ-クリティックが収束する点
- Authors: Jianfei Ma
- Abstract要約: 極限において、それらが同じ解に収束することを証明する。
同じ正当性は、KL発散のような他の正則化器にも適用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft actor-critic is a successful successor over soft Q-learning. While lived
under maximum entropy framework, their relationship is still unclear. In this
paper, we prove that in the limit they converge to the same solution. This is
appealing since it translates the optimization from an arduous to an easier
way. The same justification can also be applied to other regularizers such as
KL divergence.
- Abstract(参考訳): soft actor-critic は soft q-learning の後継である。
最大エントロピーの枠組みの下で生活したが、それらの関係はいまだに不明である。
本稿では,その極限において,それらが同じ解に収束することを証明する。
これは、最適化を難解なものからより簡単な方法に翻訳するので、魅力的です。
同じ正当化はkl発散のような他の正規化にも適用できる。
関連論文リスト
- Soft Actor-Critic with Beta Policy via Implicit Reparameterization Gradients [0.0]
ソフトアクター批判(SAC)は、政策最適化と非政治学習を組み合わせることで、サンプル効率を低下させる。
勾配がreパラメータ化トリックによって計算できる分布に限られる。
シミュレーションロボットの移動環境におけるベータポリシーにより,SACの訓練にこの手法を拡張した。
実験結果から,ベータポリシが通常のポリシよりも優れ,通常のポリシと同等であることから,ベータポリシが有効な代替手段であることが示唆された。
論文 参考訳(メタデータ) (2024-09-08T04:30:51Z) - Smoothed Q-learning [18.770059489501367]
二重Q-ラーニング(Double Q-learning)は、過大評価問題を緩和する、明らかな収束性のある代替手段である。
本稿では,最大演算を平均に置き換えた代替アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-15T13:58:07Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Automatic differentiation of nonsmooth iterative algorithms [0.0]
適切な非膨張条件下での非平滑ピギーバック自動分化(AD)について検討した。
非平滑なピギーバック反復の引き付け集合は、保守的枠組みに残る固定点の集合値であることを示す。
本研究は,Multiple-Ball法と同様に,フォワード・バックワード,ダグラス・ラフフォード,オルタネート・ディレクト・オブ・マルチプライアのアルゴリズムを用いたパラメトリック凸最適化問題について述べる。
論文 参考訳(メタデータ) (2022-05-31T07:58:37Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Debiased Sinkhorn barycenters [110.79706180350507]
最適輸送(OT)におけるエントロピー正則化(Entropy regularization)は、機械学習におけるWassersteinメトリクスやバリセンタに対する近年の関心の原動力となっている。
このバイアスがエントロピー正則化器を定義する基準測度とどのように密接に関連しているかを示す。
両世界の長所を保ち、エントロピーを滑らかにしないシンクホーン様の高速な反復をデバイアスド・ワッサースタインのバリセンタとして提案する。
論文 参考訳(メタデータ) (2020-06-03T23:06:02Z) - Plug-and-play ISTA converges with kernel denoisers [21.361571421723262]
プラグアンドプレイ(ブルー)法は画像正規化の最近のパラダイムである。
この点における根本的な問題は、核の理論的収束である。
論文 参考訳(メタデータ) (2020-04-07T06:25:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。