論文の概要: Scaffolding Reflection in Reinforcement Learning Framework for
Confinement Escape Problem
- arxiv url: http://arxiv.org/abs/2011.06764v2
- Date: Sun, 18 Apr 2021 14:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 00:36:20.888226
- Title: Scaffolding Reflection in Reinforcement Learning Framework for
Confinement Escape Problem
- Title(参考訳): 拘束避難問題の強化学習枠組みにおける足場反射
- Authors: Nishant Mohanty and Suresh Sundaram
- Abstract要約: 閉じこもり回避問題(CEP)を解決するために,強化学習(SR2L)におけるスキャッディング・リフレクションを提案する。
CEPでは、避難者の目的は、複数の追跡者によってパトロールされた監禁区域を脱出しようとすることである。
追跡者が捕獲を試みるための逆解法は、文献で広く研究されている。
- 参考スコア(独自算出の注目度): 5.244005975508652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a novel Scaffolding Reflection in Reinforcement Learning
(SR2L) is proposed for solving the confinement escape problem (CEP). In CEP, an
evader's objective is to attempt escaping a confinement region patrolled by
multiple pursuers. Meanwhile, the pursuers aim to reach and capture the evader.
The inverse solution for pursuers to try and capture has been extensively
studied in the literature. However, the problem of evaders escaping from the
region is still an open issue. The SR2L employs an actor-critic framework to
enable the evader to escape the confinement region. A time-varying state
representation and reward function have been developed for proper convergence.
The formulation uses the sensor information about the observable environment
and prior knowledge of the confinement boundary. The conventional Independent
Actor-Critic (IAC) method fails to converge due to sparseness in the reward.
The effect becomes evident when operating in such a dynamic environment with a
large area. In SR2L, along with the developed reward function, we use the
scaffolding reflection method to improve the convergence significantly while
increasing its efficiency. In SR2L, a motion planner is used as a scaffold for
the actor-critic network to observe, compare and learn the action-reward pair.
It enables the evader to achieve the required objective while using lesser
resources and time. Convergence studies show that SR2L learns faster and
converges to higher rewards as compared to IAC. Extensive Monte-Carlo
simulations show that a SR2L consistently outperforms conventional IAC and the
motion planner itself as the baselines.
- Abstract(参考訳): 本稿では,閉じこもり回避問題(CEP)を解決するために,新たにSR2L(Scaffolding Reflection in Reinforcement Learning)を提案する。
CEPでは、避難者の目的は、複数の追跡者によってパトロールされた監禁区域から逃げようとすることである。
一方、追撃者は脱出者への到達と捕獲を狙う。
追跡者が捕獲を試みるための逆解法は、文献で広く研究されている。
しかし、その地域から逃れることの問題は依然として未解決の問題である。
sr2lは、脱走者が閉じ込められた領域から脱出できるように、アクタ犯罪の枠組みを採用している。
適切な収束のために時間変化状態表現と報酬関数が開発された。
定式化は、観測可能な環境と閉じ込め境界の事前知識に関するセンサ情報を使用する。
従来のIAC(Independent Actor-Critic)法は、報酬の疎さにより収束しない。
このようなダイナミックな環境で大きな領域で運用する場合、効果は明らかになる。
SR2Lでは,開発した報奨関数とともに,足場反射法を用いて効率を向上し,収束性を大幅に向上させる。
sr2lでは、モーションプランナーをアクター-クリティックネットワークの足場として使用し、アクション-リワードペアを観察、比較、学習する。
これにより、より少ないリソースと時間を使用しながら、必要な目的を達成することができる。
収束研究により、SR2LはIACと比較してより速く学習し、より高い報酬に収束することが示された。
広範なモンテカルロシミュレーションにより、SR2Lは従来のIACと運動プランナー自体をベースラインとして一貫して優れていた。
関連論文リスト
- Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning [16.761470423715338]
マルチUAV追跡回避は、UAV群知能にとって重要な課題である。
本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。
我々は、2段階の報酬改善を通じて実現可能な政策を導出し、ゼロショット方式で実四重項にポリシーを展開する。
論文 参考訳(メタデータ) (2024-09-24T08:40:04Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Single-Reset Divide & Conquer Imitation Learning [49.87201678501027]
デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。
いくつかのアルゴリズムは1つのデモンストレーションから学習するために開発されている。
論文 参考訳(メタデータ) (2024-02-14T17:59:47Z) - A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments [15.959963737956848]
本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。
追従回避問題を単純化する既存のアルゴリズムは、しばしば表現力のある協調戦略を欠き、極端なシナリオで回避者を捕まえるのに苦労する。
多様な環境下でのマルチUAV追従回避に対処し,未知のシナリオに対するゼロショット転送能力を実証するデュアルカリキュラム学習フレームワークDualCLを導入する。
論文 参考訳(メタデータ) (2023-12-19T15:39:09Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Receding Horizon Inverse Reinforcement Learning [16.63162838890697]
逆強化学習(IRL)は、専門家によるデモンストレーションの目的と好みを説明するコスト関数を推論しようとする。
本稿では,ブラックボックス動的モデルを用いた高次元・雑音・連続システムのための新しいIRLアルゴリズムであるRereeding horizon inverse reinforcement Learning (RHIRL)を提案する。
論文 参考訳(メタデータ) (2022-06-09T13:03:27Z) - Unpaired Adversarial Learning for Single Image Deraining with Rain-Space
Contrastive Constraints [61.40893559933964]
我々は,CDR-GAN という名称の GAN フレームワークにおいて,比較学習手法により,経験者の相互特性を探索する有効な非経験的 SID 手法を開発した。
提案手法は, 合成および実世界の両方のデータセットにおいて, 既存の非対効果のデラミニング手法に対して良好に動作し, 完全教師付きモデルや半教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2021-09-07T10:00:45Z) - Hybrid Adversarial Inverse Reinforcement Learning [8.195477717525069]
ハイブリッド逆強化学習(HAIRL)というBD-IRLフレームワークを提案する。
HAIRLは、他の類似の最先端(SOTA)アルゴリズムと比較して、より効率的で堅牢である。
論文 参考訳(メタデータ) (2021-02-04T07:27:50Z) - Locally Persistent Exploration in Continuous Control Tasks with Sparse
Rewards [0.0]
2つの直観に基づく新しい探索法を提案する。
次の探索アクションの選択は、環境の(マルコフの)状態だけでなく、エージェントの軌道にも依存する必要があります。
本稿では,局所的自己回避歩行の理論的特性と,短期記憶の提供能力について論じる。
論文 参考訳(メタデータ) (2020-12-26T01:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。