論文の概要: Reinforcement Learning in Categorical Cybernetics
- arxiv url: http://arxiv.org/abs/2404.02688v1
- Date: Wed, 3 Apr 2024 12:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:31:03.063822
- Title: Reinforcement Learning in Categorical Cybernetics
- Title(参考訳): カテゴリーサイバーネティクスにおける強化学習
- Authors: Jules Hedges, Riu Rodríguez Sakamoto,
- Abstract要約: 我々は、強化学習のいくつかの主要なアルゴリズムが分類サイバーネティクスの枠組みに適合していることを示す。
私たちは以前の研究に基づいて、価値の反復は特定の光学で前もって表現できることを示しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that several major algorithms of reinforcement learning (RL) fit into the framework of categorical cybernetics, that is to say, parametrised bidirectional processes. We build on our previous work in which we show that value iteration can be represented by precomposition with a certain optic. The outline of the main construction in this paper is: (1) We extend the Bellman operators to parametrised optics that apply to action-value functions and depend on a sample. (2) We apply a representable contravariant functor, obtaining a parametrised function that applies the Bellman iteration. (3) This parametrised function becomes the backward pass of another parametrised optic that represents the model, which interacts with an environment via an agent. Thus, parametrised optics appear in two different ways in our construction, with one becoming part of the other. As we show, many of the major classes of algorithms in RL can be seen as different extremal cases of this general setup: dynamic programming, Monte Carlo methods, temporal difference learning, and deep RL. We see this as strong evidence that this approach is a natural one and believe that it will be a fruitful way to think about RL in the future.
- Abstract(参考訳): 我々は、強化学習(RL)のいくつかの主要なアルゴリズムが、分類サイバーネティクスの枠組み、すなわちパラメトリド双方向プロセスに適合していることを示します。
私たちは以前の研究に基づいて、価値の反復は特定の光学で前もって表現できることを示しました。
本論文の主な構成の概要は次の通りである: 1) ベルマン作用素をパラメトリド光学へ拡張し、作用値関数に適用し、サンプルに依存する。
2) 表現可能な反変関手を適用し、ベルマン反復を適用するパラメトリド関数を得る。
(3) このパラメトリッド関数は、エージェントを介して環境と相互作用するモデルを表す別のパラメトリッド光学の後方通過となる。
このように、パラメトリッド光学は、構成において2つの異なる方法で現れ、一方が他方の一部となる。
示すように、RLのアルゴリズムの主要なクラスの多くは、動的プログラミング、モンテカルロ法、時間差分学習、深部RLといった、この一般的なセットアップの様々な極端ケースと見なすことができる。
このアプローチが自然なものであるという強い証拠であり、将来的にはRLについて考えるための実りある方法になるだろうと考えています。
関連論文リスト
- Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens [9.590540796223715]
本稿では,表現学習のレンズを用いて,トランスフォーマーにおける文脈内学習プロセスについて検討する。
注目層のICL推論プロセスは、その2重モデルのトレーニング手順と整合し、トークン表現予測を生成する。
理論的結論は、1つのトランスフォーマー層と複数の注意層を含む、より複雑なシナリオにまで拡張します。
論文 参考訳(メタデータ) (2023-10-20T01:55:34Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Unsupervised Learning of Equivariant Structure from Sequences [30.974508897223124]
我々は,少なくとも3つの長さの時系列から対称性を学習するための教師なしのフレームワークを提案する。
当社のフレームワークでは,データセットの非絡み合い構造が副産物として自然に現れることを実証します。
論文 参考訳(メタデータ) (2022-10-12T07:29:18Z) - Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。
予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。
我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文 参考訳(メタデータ) (2022-09-06T14:36:57Z) - Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:02:02Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - A research framework for writing differentiable PDE discretizations in
JAX [3.4389358108344257]
微分可能シミュレータは、強化学習から最適制御まで、いくつかの分野で応用される新しい概念である。
連続関数の族間の写像として作用素を表現し、有限ベクトルでパラメタ化することにより、微分可能作用素と離散化のライブラリを提案する。
本稿では、フーリエスペクトル法を用いてヘルムホルツ方程式を離散化し、勾配勾配を用いて微分可能性を示し、音響レンズの音速を最適化する音響最適化問題に対するアプローチを示す。
論文 参考訳(メタデータ) (2021-11-09T15:58:44Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。