論文の概要: Qgraph-bounded Q-learning: Stabilizing Model-Free Off-Policy Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.07582v1
- Date: Wed, 15 Jul 2020 10:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 04:52:25.214204
- Title: Qgraph-bounded Q-learning: Stabilizing Model-Free Off-Policy Deep
Reinforcement Learning
- Title(参考訳): Qgraph-bounded Q-learning: モデルなしオフポリティ深い強化学習の安定化
- Authors: Sabrina Hoppe and Marc Toussaint
- Abstract要約: アートモデルのない非政治的な深層強化学習の状況では、過去の経験を記憶し、すべてのネットワーク更新を導出するためにリプレイメモリが使用される。
データグラフでこれらの遷移を表現し、その構造をソフトな分散にリンクする。
単純化された MDP における各遷移に対する Q-値が、元の連続 Q-ラーニング問題における同じ遷移に対する Q-値の低い境界であることを示す。
- 参考スコア(独自算出の注目度): 33.31762612175859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In state of the art model-free off-policy deep reinforcement learning, a
replay memory is used to store past experience and derive all network updates.
Even if both state and action spaces are continuous, the replay memory only
holds a finite number of transitions. We represent these transitions in a data
graph and link its structure to soft divergence. By selecting a subgraph with a
favorable structure, we construct a simplified Markov Decision Process for
which exact Q-values can be computed efficiently as more data comes in. The
subgraph and its associated Q-values can be represented as a QGraph. We show
that the Q-value for each transition in the simplified MDP is a lower bound of
the Q-value for the same transition in the original continuous Q-learning
problem. By using these lower bounds in temporal difference learning, our
method QG-DDPG is less prone to soft divergence and exhibits increased sample
efficiency while being more robust to hyperparameters. QGraphs also retain
information from transitions that have already been overwritten in the replay
memory, which can decrease the algorithm's sensitivity to the replay memory
capacity.
- Abstract(参考訳): アートモデルフリーのオフポリシー深層強化学習では、過去の経験を記憶し、すべてのネットワーク更新を導出するためにリプレイメモリが使用される。
状態空間と動作空間の両方が連続であっても、リプレイメモリは有限個の遷移しか保持しない。
データグラフでこれらの遷移を表現し、その構造をソフトな分散にリンクする。
有利な構造を持つ部分グラフを選択することで、より多くのデータが入ってくるにつれて正確なQ値が効率的に計算できる簡易マルコフ決定プロセスを構築する。
部分グラフとその関連Q値はQGraphとして表現できる。
単純化された MDP における各遷移に対する Q-値が、元の連続 Q-ラーニング問題における同じ遷移に対する Q-値の低い境界であることを示す。
時間差学習におけるこれらの下限を用いることで, qg-ddpg法は軟発散性が低下し, ハイパーパラメータに頑健なサンプル効率が向上する。
QGraphは、すでにリプレイメモリに上書きされているトランジションの情報を保持するため、リプレイメモリ容量に対するアルゴリズムの感度が低下する可能性がある。
関連論文リスト
- Linear Regression Using Quantum Annealing with Continuous Variables [0.0]
ボソン系は離散近似に頼らずに線形回帰の最適化を容易にする。
我々の新しいアプローチの大きな利点は、断熱条件が満たされる限り、キュービット数を増やすことなく精度を確保することができることである。
論文 参考訳(メタデータ) (2024-10-11T06:49:09Z) - CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering [33.89497991289916]
そこで本研究では,新たな書込み手法であるCoTKRを提案し,推論トレースとそれに対応する知識をインターリーブ方式で生成する。
我々は,様々な知識グラフ質問回答 (KGQA) ベンチマークを用いて,様々な言語モデル (LLM) を用いて実験を行う。
論文 参考訳(メタデータ) (2024-09-29T16:08:45Z) - Weight Re-Mapping for Variational Quantum Algorithms [54.854986762287126]
変動量子回路(VQC)における重み付けの考え方を紹介する。
我々は,8つの分類データセットに対する影響を評価するために,7つの異なる重み再マッピング関数を用いる。
以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-09T09:42:21Z) - Improving Convergence for Quantum Variational Classifiers using Weight
Re-Mapping [60.086820254217336]
近年、量子機械学習は変分量子回路(VQC)の利用が大幅に増加した。
重みを2pi$の間隔に不明瞭にマッピングするために、VQCの重み再マッピングを導入する。
修正されていないウェイトを用いて、Wineデータセットの重量再マッピングにより、テスト精度が10%向上したことを実証した。
論文 参考訳(メタデータ) (2022-12-22T13:23:19Z) - Topological Experience Replay [22.84244156916668]
深層Q-ラーニングメソッドは、経験リプレイバッファからサンプリングされた状態遷移を使用してQ-値を更新する。
エージェントの経験をグラフに整理し、状態のQ値間の依存性を明示的に追跡する。
本手法は,多種多様な目標達成タスクのベースラインよりも,データ効率が著しく高いことを実証的に示す。
論文 参考訳(メタデータ) (2022-03-29T18:28:20Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Characterizing the loss landscape of variational quantum circuits [77.34726150561087]
本稿では,VQCの損失関数のヘシアンを計算する方法を紹介する。
この情報がどのように解釈され、従来のニューラルネットワークと比較されるかを示す。
論文 参考訳(メタデータ) (2020-08-06T17:48:12Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。