論文の概要: Assessing Policy, Loss and Planning Combinations in Reinforcement
Learning using a New Modular Architecture
- arxiv url: http://arxiv.org/abs/2201.02874v1
- Date: Sat, 8 Jan 2022 18:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 05:20:06.511014
- Title: Assessing Policy, Loss and Planning Combinations in Reinforcement
Learning using a New Modular Architecture
- Title(参考訳): 新しいモジュールアーキテクチャを用いた強化学習における政策・損失・計画の組み合わせの評価
- Authors: Tiago Gaspar Oliveira and Arlindo L. Oliveira
- Abstract要約: モデルベース強化学習エージェントに適した新しいモジュール型ソフトウェアアーキテクチャを提案する。
計画アルゴリズム,ポリシー,損失関数の最適組み合わせは問題に大きく依存していることが示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The model-based reinforcement learning paradigm, which uses planning
algorithms and neural network models, has recently achieved unprecedented
results in diverse applications, leading to what is now known as deep
reinforcement learning. These agents are quite complex and involve multiple
components, factors that can create challenges for research. In this work, we
propose a new modular software architecture suited for these types of agents,
and a set of building blocks that can be easily reused and assembled to
construct new model-based reinforcement learning agents. These building blocks
include planning algorithms, policies, and loss functions.
We illustrate the use of this architecture by combining several of these
building blocks to implement and test agents that are optimized to three
different test environments: Cartpole, Minigrid, and Tictactoe. One particular
planning algorithm, made available in our implementation and not previously
used in reinforcement learning, which we called averaged minimax, achieved good
results in the three tested environments.
Experiments performed with this architecture have shown that the best
combination of planning algorithm, policy, and loss function is heavily problem
dependent. This result provides evidence that the proposed architecture, which
is modular and reusable, is useful for reinforcement learning researchers who
want to study new environments and techniques.
- Abstract(参考訳): 計画アルゴリズムとニューラルネットワークモデルを用いたモデルベースの強化学習パラダイムは、最近様々なアプリケーションで前例のない結果をもたらし、現在ディープ強化学習と呼ばれている。
これらのエージェントは非常に複雑で、複数のコンポーネントを含む。
本研究では,このようなエージェントに適した新しいモジュール型ソフトウェアアーキテクチャと,モデルベースの強化学習エージェントを構築するために,再利用や組み立てが容易なビルディングブロックのセットを提案する。
これらのビルディングブロックには、計画アルゴリズム、ポリシー、損失関数が含まれる。
これらのビルディングブロックのいくつかを組み合わせて,cartpole,minigrid,tictactoeという3つのテスト環境に最適化されたテストエージェントを実装し,テストする。
1つの特定の計画アルゴリズムは、我々の実装で利用可能であり、以前には強化学習に使用されていなかったが、我々は、平均化ミニマックスと呼び、3つのテスト環境で良い結果を得た。
このアーキテクチャで行った実験では、計画アルゴリズム、ポリシー、損失関数の最良の組み合わせは問題に依存することが示されている。
この結果は,新たな環境や技術の研究を望む強化学習研究者にとって,モジュール構造と再利用可能なアーキテクチャが有用であることを示す。
関連論文リスト
- Task Agnostic Architecture for Algorithm Induction via Implicit Composition [10.627575117586417]
本研究の目的は,このような統一アーキテクチャの構築を探求することであり,その構築方法に関する理論的枠組みを提案することである。
最近のジェネレーティブAI、特にトランスフォーマーベースのモデルは、幅広い領域のアルゴリズムを構築することができるアーキテクチャとしての可能性を示している。
アルゴリズム合成におけるトランスフォーマーおよび他の手法の現在の機能と限界について検討する。
論文 参考訳(メタデータ) (2024-04-03T04:31:09Z) - RLOR: A Flexible Framework of Deep Reinforcement Learning for Operation
Research [0.0]
本稿では, 深層強化学習のための柔軟なフレームワークであるRLORを紹介する。
車両経路問題に対するエンドツーエンドの自己回帰モデルの解析を行い、これらのモデルが近年の強化学習の進歩の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2023-03-23T09:07:30Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - POPNASv3: a Pareto-Optimal Neural Architecture Search Solution for Image
and Time Series Classification [8.190723030003804]
本稿では、異なるハードウェア環境と複数の分類タスクを対象とした逐次モデルベースNASアルゴリズムの第3版について述べる。
提案手法は,異なるタスクに適応するフレキシブルな構造とデータ処理パイプラインを維持しながら,大規模な検索空間内で競合するアーキテクチャを見つけることができる。
画像と時系列の分類データセットで実施された実験は、POPNASv3が多種多様な演算子を探索し、異なるシナリオで提供されるデータの種類に適した最適なアーキテクチャに収束できることを示す。
論文 参考訳(メタデータ) (2022-12-13T17:14:14Z) - Pareto-aware Neural Architecture Generation for Diverse Computational
Budgets [94.27982238384847]
既存の手法は、しばしば各目標予算に対して独立したアーキテクチャ探索プロセスを実行する。
提案するニューラルアーキテクチャジェネレータ(PNAG)は,任意の予算に対して,推論によって最適なアーキテクチャを動的に生成する。
このような共同探索アルゴリズムは、全体の検索コストを大幅に削減するだけでなく、結果も改善する。
論文 参考訳(メタデータ) (2022-10-14T08:30:59Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - Differentiable Architecture Pruning for Transfer Learning [6.935731409563879]
本研究では,与えられた大規模モデルからサブアーキテクチャを抽出するための勾配に基づくアプローチを提案する。
我々のアーキテクチャ・プルーニング・スキームは、異なるタスクを解くために再訓練を成功させることができるトランスファー可能な新しい構造を生成する。
理論的収束保証を提供し、実データ上で提案した伝達学習戦略を検証する。
論文 参考訳(メタデータ) (2021-07-07T17:44:59Z) - Redefining Neural Architecture Search of Heterogeneous Multi-Network
Models by Characterizing Variation Operators and Model Components [71.03032589756434]
複素領域における異なる変動演算子の効果について検討する。
モデルの複雑さと性能に影響を及ぼす変化演算子と、それを構成する異なる部分の質を推定する様々な指標に依存するモデルの両方を特徴付ける。
論文 参考訳(メタデータ) (2021-06-16T17:12:26Z) - Revealing the Invisible with Model and Data Shrinking for
Composite-database Micro-expression Recognition [49.463864096615254]
入力複雑性とモデル複雑性を含む学習複雑性の影響を分析する。
より浅層構造と低分解能入力データを探索する再帰畳み込みネットワーク(RCN)を提案する。
学習可能なパラメータを増やさなくてもRCNと統合できる3つのパラメータフリーモジュールを開発した。
論文 参考訳(メタデータ) (2020-06-17T06:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。