論文の概要: Blockwise Sequential Model Learning for Partially Observable
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.05343v1
- Date: Fri, 10 Dec 2021 05:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:11:14.396371
- Title: Blockwise Sequential Model Learning for Partially Observable
Reinforcement Learning
- Title(参考訳): 部分観測型強化学習のためのブロックワイズ逐次モデル学習
- Authors: Giseung Park, Sungho Choi, Youngchul Sung
- Abstract要約: 本稿では、部分的に観測可能なマルコフ決定問題を解くために、新しい逐次モデル学習アーキテクチャを提案する。
提案アーキテクチャは,各データブロックに複数のタイムステップを持つ潜時変数を生成し,最も関連性の高い情報を次のブロックに渡してポリシー最適化を行う。
数値計算の結果,提案手法は様々な部分観測可能な環境において,従来の手法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 14.642266310020505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new sequential model learning architecture to solve
partially observable Markov decision problems. Rather than compressing
sequential information at every timestep as in conventional recurrent neural
network-based methods, the proposed architecture generates a latent variable in
each data block with a length of multiple timesteps and passes the most
relevant information to the next block for policy optimization. The proposed
blockwise sequential model is implemented based on self-attention, making the
model capable of detailed sequential learning in partial observable settings.
The proposed model builds an additional learning network to efficiently
implement gradient estimation by using self-normalized importance sampling,
which does not require the complex blockwise input data reconstruction in the
model learning. Numerical results show that the proposed method significantly
outperforms previous methods in various partially observable environments.
- Abstract(参考訳): 本稿では,部分可観測マルコフ決定問題を解決する新しい逐次モデル学習アーキテクチャを提案する。
提案アーキテクチャは,従来のリカレントニューラルネットワーク方式のように各タイミングで逐次情報を圧縮するのではなく,複数のタイムステップを持つ各データブロックに潜時変数を生成し,最も関連性の高い情報を次のブロックに渡す。
提案するブロックワイズシーケンシャルモデルは, 自己アテンションに基づいて実装され, 部分観測可能な設定で詳細なシーケンシャル学習が可能となる。
モデル学習において複雑なブロック単位の入力データ再構成を必要としない自己正規化重要度サンプリングを用いて、勾配推定を効率的に実装する学習ネットワークを構築した。
数値計算の結果, 提案手法は, 様々な部分観測環境において, 従来の手法を大きく上回ることがわかった。
関連論文リスト
- Learning of networked spreading models from noisy and incomplete data [7.669018800404791]
スケーラブルな動的メッセージパッシング技術に基づく普遍的な学習手法を提案する。
このアルゴリズムは、モデルとデータに関する利用可能な事前知識を活用し、拡散モデルのネットワーク構造とパラメータの両方を再構成する。
キーモデルパラメータを持つ手法の線形計算複雑性は,アルゴリズムを大規模ネットワークインスタンスにスケーラブルにすることを示す。
論文 参考訳(メタデータ) (2023-12-20T13:12:47Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - Learning Dynamics from Noisy Measurements using Deep Learning with a
Runge-Kutta Constraint [9.36739413306697]
そこで本研究では,雑音と疎サンプルを用いた微分方程式の学習手法について論じる。
我々の方法論では、ディープニューラルネットワークと古典的な数値積分法の統合において、大きな革新が見られる。
論文 参考訳(メタデータ) (2021-09-23T15:43:45Z) - Lifelong Infinite Mixture Model Based on Knowledge-Driven Dirichlet
Process [15.350366047108103]
生涯学習における最近の研究成果は、タスクの増加に対応するために、モデルの混合を成長させることが提案されている。
本研究では,データの確率的表現間の差分距離に基づいてリスク境界を導出することにより,生涯学習モデルの理論的解析を行う。
理論解析に着想を得て, 生涯無限混合モデル (LIMix) と呼ばれる新しい生涯学習手法を導入する。
論文 参考訳(メタデータ) (2021-08-25T21:06:20Z) - Self-learning sparse PCA for multimode process monitoring [2.8102838347038617]
本稿では,逐次モードの自己学習能力を有するスパース主成分分析アルゴリズムを提案する。
従来のマルチモードモニタリング方法とは異なり、モニタリングモデルは現在のモデルと新しいモードが到着したときに新しいデータに基づいて更新される。
論文 参考訳(メタデータ) (2021-08-07T13:50:16Z) - PAC Bounds for Imitation and Model-based Batch Learning of Contextual
Markov Decision Processes [31.83144400718369]
本稿では,コンテキスト記述子を用いたマルチタスク強化学習のバッチ化の問題点について考察する。
直接政策学習(DPL)、専門家の軌道から学習する模倣学習に基づくアプローチ、モデルに基づく学習という2つの一般的な学習アルゴリズムについて研究する。
論文 参考訳(メタデータ) (2020-06-11T11:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。