論文の概要: Dynamic deep-reinforcement-learning algorithm in Partially Observed
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2307.15931v1
- Date: Sat, 29 Jul 2023 08:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 18:46:59.245441
- Title: Dynamic deep-reinforcement-learning algorithm in Partially Observed
Markov Decision Processes
- Title(参考訳): 部分観測マルコフ決定過程における動的深部強化学習アルゴリズム
- Authors: Saki Omi, Hyo-Sang Shin, Namhoon Cho, Antonios Tsourdos
- Abstract要約: 本研究は、部分的に観測可能なマルコフ決定過程を解くために、アクションシーケンス包含の利点を示す。
開発したアルゴリズムは、異なる種類の外部乱れに対して、コントローラ性能の強化されたロバスト性を示した。
- 参考スコア(独自算出の注目度): 6.729108277517129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has been greatly improved in recent studies and an
increased interest in real-world implementation has emerged in recent years. In
many cases, due to the non-static disturbances, it becomes challenging for the
agent to keep the performance. The disturbance results in the environment
called Partially Observable Markov Decision Process. In common practice,
Partially Observable Markov Decision Process is handled by introducing an
additional estimator, or Recurrent Neural Network is utilized in the context of
reinforcement learning. Both of the cases require to process sequential
information on the trajectory. However, there are only a few studies
investigating the effect of information to consider and the network structure
to handle them. This study shows the benefit of action sequence inclusion in
order to solve Partially Observable Markov Decision Process. Several structures
and approaches are proposed to extend one of the latest deep reinforcement
learning algorithms with LSTM networks. The developed algorithms showed
enhanced robustness of controller performance against different types of
external disturbances that are added to observation.
- Abstract(参考訳): 近年, 強化学習が大幅に改善され, 近年, 実世界の実践への関心が高まっている。
多くの場合、非静的な乱れのため、エージェントがパフォーマンスを維持することが困難になる。
この乱れは部分的に観測可能なマルコフ決定過程と呼ばれる環境をもたらす。
一般に、部分観測可能なマルコフ決定プロセスは、追加の推定器を導入することで処理されるか、強化学習の文脈でリカレントニューラルネットワークを利用する。
どちらのケースも、軌道上のシーケンシャルな情報を処理する必要がある。
しかし、考慮すべき情報とそれらを扱うネットワーク構造の効果を研究する研究はごくわずかである。
本研究は,部分可観測マルコフ決定過程を解決するための行動系列包含の利点を示す。
LSTMネットワークを用いた最新の深層強化学習アルゴリズムの1つを拡張するために,いくつかの構造とアプローチが提案されている。
開発したアルゴリズムは観測に付加される様々な外乱に対する制御器性能の頑健性を示した。
関連論文リスト
- Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - GASE: Graph Attention Sampling with Edges Fusion for Solving Vehicle Routing Problems [6.084414764415137]
車両のルーティング問題を解決するためにEdges Fusionフレームワークを用いた適応型グラフ注意サンプリングを提案する。
提案手法は,既存の手法を2.08%-6.23%上回り,より強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-21T03:33:07Z) - Provable Representation with Efficient Planning for Partial Observable Reinforcement Learning [74.67655210734338]
ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。
我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
論文 参考訳(メタデータ) (2023-11-20T23:56:58Z) - An Analytic End-to-End Deep Learning Algorithm based on Collaborative
Learning [5.710971447109949]
本稿では, 完全連結ニューラルネットワーク(FNN)の終端深層学習におけるスムーズなアクティベーション機能を持つ収束解析について述べる。
提案手法は,潜在的な解答の問題を回避するとともに,解答の問題も容易には起こらない。
論文 参考訳(メタデータ) (2023-05-26T08:09:03Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Opportunistic Episodic Reinforcement Learning [9.364712393700056]
機会論的強化学習(英: opportunistic reinforcement learning)は、変分因子として知られる外部環境条件下で、最適な行動を選択することの後悔が変化する強化学習の新たな変種である。
我々の直感は、変動係数が高いときにさらに活用し、変動係数が低いときにさらに探索することである。
我々のアルゴリズムは、探索をガイドするために変動係数に依存した楽観性を導入することで、強化学習のための探索・探索トレードオフのバランスをとる。
論文 参考訳(メタデータ) (2022-10-24T18:02:33Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Amortized Variational Deep Q Network [28.12600565839504]
本稿では,ディープQネットワークにおける動作値関数の後方分布を近似する補正型変分推論フレームワークを提案する。
このアモータイズされたフレームワークは,既存の最先端手法よりも学習パラメータがかなり少ないことを示す。
論文 参考訳(メタデータ) (2020-11-03T13:48:18Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。