論文の概要: Reinforcement Learning as Iterative and Amortised Inference
- arxiv url: http://arxiv.org/abs/2006.10524v3
- Date: Sun, 5 Jul 2020 18:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 20:24:50.897480
- Title: Reinforcement Learning as Iterative and Amortised Inference
- Title(参考訳): 反復的・償却的推論としての強化学習
- Authors: Beren Millidge, Alexander Tschantz, Anil K Seth, Christopher L Buckley
- Abstract要約: 我々は、この制御を推論フレームワークとして使用し、償却および反復推論に基づく新しい分類スキームを概説する。
この観点から、比較的探索されていないアルゴリズム設計空間の一部を特定できることを示す。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are several ways to categorise reinforcement learning (RL) algorithms,
such as either model-based or model-free, policy-based or planning-based,
on-policy or off-policy, and online or offline. Broad classification schemes
such as these help provide a unified perspective on disparate techniques and
can contextualise and guide the development of new algorithms. In this paper,
we utilise the control as inference framework to outline a novel classification
scheme based on amortised and iterative inference. We demonstrate that a wide
range of algorithms can be classified in this manner providing a fresh
perspective and highlighting a range of existing similarities. Moreover, we
show that taking this perspective allows us to identify parts of the
algorithmic design space which have been relatively unexplored, suggesting new
routes to innovative RL algorithms.
- Abstract(参考訳): モデルベースまたはモデルフリー、ポリシーベースまたは計画ベース、オンラインまたはオフラインなど、強化学習(RL)アルゴリズムを分類する方法はいくつかある。
このような幅広い分類スキームは、異なる技術に対する統一的な視点を提供し、新しいアルゴリズムの開発を文脈化し、導くのに役立つ。
本稿では,この制御を推論フレームワークとして利用し,償却および反復推論に基づく新しい分類手法の概要を述べる。
この方法では、幅広いアルゴリズムを分類し、新しい視点を提供し、既存の類似性を強調することができることを実証する。
さらに、この観点からは、比較的未探索なアルゴリズム設計空間の一部を特定することができ、革新的なRLアルゴリズムへの新たな経路を提案する。
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - Towards a Systematic Approach to Design New Ensemble Learning Algorithms [0.0]
本研究は,アンサンブルの誤り分解に関する基礎研究を再考する。
最近の進歩は「多様性の統一理論」を導入した
本研究は,新たなアンサンブル学習アルゴリズムの創出を導くために,この分解の応用を体系的に検討する。
論文 参考訳(メタデータ) (2024-02-09T22:59:20Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Understanding A Class of Decentralized and Federated Optimization
Algorithms: A Multi-Rate Feedback Control Perspective [41.05789078207364]
分散最適化アルゴリズムを理解し、分析し、設計するための新しい視点を提供する。
本稿では,分散化/分散化方式を含む分散アルゴリズムを,特定の連続時間フィードバック制御系を識別できることを示す。
論文 参考訳(メタデータ) (2022-04-27T01:53:57Z) - On Multi-objective Policy Optimization as a Tool for Reinforcement
Learning: Case Studies in Offline RL and Finetuning [24.264618706734012]
より効率的な深層強化学習アルゴリズムの開発方法について述べる。
ケーススタディとして,オフラインRLとファインタニングに注目した。
専門家の混合蒸留(DiME)について紹介する
オフラインのRLでは、DMEが最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-15T14:59:14Z) - A Survey on Deep Semi-supervised Learning [51.26862262550445]
まず,既存の手法を分類した深層半指導学習の分類法を提案する。
次に、損失の種類、貢献度、アーキテクチャの違いの観点から、これらのメソッドを詳細に比較します。
論文 参考訳(メタデータ) (2021-02-28T16:22:58Z) - Safe Learning and Optimization Techniques: Towards a Survey of the State
of the Art [3.6954802719347413]
安全な学習と最適化は、できるだけ安全でない入力ポイントの評価を避ける学習と最適化の問題に対処します。
安全強化学習アルゴリズムに関する包括的な調査は2015年に発表されたが、アクティブラーニングと最適化に関する関連研究は考慮されなかった。
本稿では,強化学習,ガウス過程の回帰と分類,進化的アルゴリズム,アクティブラーニングなど,様々な分野のアルゴリズムについて概説する。
論文 参考訳(メタデータ) (2021-01-23T13:58:09Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。