論文の概要: Orchestrated Value Mapping for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.07171v2
- Date: Wed, 16 Mar 2022 23:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 12:13:09.834895
- Title: Orchestrated Value Mapping for Reinforcement Learning
- Title(参考訳): 強化学習のためのオーケストレーション価値マッピング
- Authors: Mehdi Fatemi and Arash Tavakoli
- Abstract要約: 本稿では2つの異なる原理に基づく強化学習アルゴリズムのクラスを示す。
最初の原則は、学習を強化するための価値推定器に特定のプロパティを組み込むことを可能にする。
2つ目の原則は、値関数を複数のユーティリティ関数の合成として表すことを可能にする。
- 参考スコア(独自算出の注目度): 15.000818334408805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a general convergent class of reinforcement learning algorithms
that is founded on two distinct principles: (1) mapping value estimates to a
different space using arbitrary functions from a broad class, and (2) linearly
decomposing the reward signal into multiple channels. The first principle
enables incorporating specific properties into the value estimator that can
enhance learning. The second principle, on the other hand, allows for the value
function to be represented as a composition of multiple utility functions. This
can be leveraged for various purposes, e.g. dealing with highly varying reward
scales, incorporating a priori knowledge about the sources of reward, and
ensemble learning. Combining the two principles yields a general blueprint for
instantiating convergent algorithms by orchestrating diverse mapping functions
over multiple reward channels. This blueprint generalizes and subsumes
algorithms such as Q-Learning, Log Q-Learning, and Q-Decomposition. In
addition, our convergence proof for this general class relaxes certain required
assumptions in some of these algorithms. Based on our theory, we discuss
several interesting configurations as special cases. Finally, to illustrate the
potential of the design space that our theory opens up, we instantiate a
particular algorithm and evaluate its performance on the Atari suite.
- Abstract(参考訳): 本稿では,(1)値推定値を広いクラスから任意の関数を用いて異なる空間にマッピングする,(2)報酬信号を複数のチャネルに線形に分解する,という2つの異なる原理に基づく強化学習アルゴリズムの一般収束クラスを提案する。
最初の原則は、学習を強化するための価値推定器に特定のプロパティを組み込むことを可能にする。
一方、第二の原理は、値関数を複数のユーティリティ関数の合成として表現することを可能にする。
これは、高度に異なる報酬尺度を扱うこと、報酬の源に関する事前知識を取り入れること、アンサンブル学習など、様々な目的に活用できる。
この2つの原則を組み合わせることで、複数の報酬チャネル上で多様なマッピング関数をオーケストレーションすることで収束アルゴリズムをインスタンス化する一般的な青写真が得られる。
この青写真は、Q-Learning、Log Q-Learning、Q-Decompositionといったアルゴリズムを一般化し、仮定する。
さらに、この一般クラスに対する収束証明は、これらのアルゴリズムのいくつかで要求される仮定を緩和する。
この理論に基づいて、いくつかの興味深い構成を特殊ケースとして論じる。
最後に、我々の理論が開放する設計空間の可能性を説明するために、特定のアルゴリズムをインスタンス化し、その性能を評価する。
関連論文リスト
- Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Graph Positional Encoding via Random Feature Propagation [39.84324765957645]
ノード特徴拡張スキームの2つの主要なファミリーがGNNの強化のために検討されている。
本稿では、上記の2つのアプローチのリンクを引いた、位置符号化方式の新たなファミリーを提案する。
我々は、RFPが複数のノード分類とグラフ分類ベンチマークにおいてスペクトルPEとランダムの特徴の両方を著しく上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2023-03-06T06:28:20Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Generalization on the Unseen, Logic Reasoning and Degree Curriculum [25.7378861650474]
本稿では,論理的(ブール的)関数の学習について,未確認(GOTU)設定の一般化に着目して考察する。
我々は,(S)GDで訓練されたネットワークアーキテクチャがGOTUの下でどのように機能するかを検討する。
具体的には、より高次基底要素に最小のフーリエ質量を持つトレーニングデータの補間子を意味する。
論文 参考訳(メタデータ) (2023-01-30T17:44:05Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Classical shadows with Pauli-invariant unitary ensembles [0.0]
パウリ不変ユニタリアンサンブルのクラスを、パウリ作用素による乗法の下で不変とする。
我々の結果は、量子状態の重要な性質を予測するための、より効率的で堅牢なプロトコルの道を開いた。
論文 参考訳(メタデータ) (2022-02-07T15:06:30Z) - pRSL: Interpretable Multi-label Stacking by Learning Probabilistic Rules [0.0]
本稿では,確率論的命題論理則と信念伝播を用いた確率論的ルールスタックリング(pRSL)を提案し,その基礎となる分類器の予測と組み合わせる。
精度と近似推論と学習のためのアルゴリズムを導出し、様々なベンチマークデータセット上でpRSLが最先端の性能に達することを示す。
論文 参考訳(メタデータ) (2021-05-28T14:06:21Z) - Finite-Function-Encoding Quantum States [52.77024349608834]
任意の$d$値論理関数を符号化する有限関数符号化(FFE)を導入する。
それらの構造的特性について検討する。
論文 参考訳(メタデータ) (2020-12-01T13:53:23Z) - A Functional Perspective on Learning Symmetric Functions with Neural
Networks [48.80300074254758]
本研究では,測定値に基づいて定義されたニューラルネットワークの学習と表現について検討する。
正規化の異なる選択の下で近似と一般化境界を確立する。
得られたモデルは効率よく学習でき、入力サイズにまたがる一般化保証を享受できる。
論文 参考訳(メタデータ) (2020-08-16T16:34:33Z) - Preventing Value Function Collapse in Ensemble {Q}-Learning by
Maximizing Representation Diversity [0.0]
MaxminとEnsemble Q-learningアルゴリズムは、過大評価バイアスを減らすために、学習者のアンサンブルが提供する異なる推定値を使用している。
残念ながら、これらの学習者はパラメトリックまたは表現空間において同じ点に収束し、古典的な単一ニューラルネットワークDQNに戻ることができる。
経済理論とコンセンサス最適化から着想を得た5つの正規化関数を提案し,比較する。
論文 参考訳(メタデータ) (2020-06-24T15:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。