論文の概要: Dynamic Interval Restrictions on Action Spaces in Deep Reinforcement
Learning for Obstacle Avoidance
- arxiv url: http://arxiv.org/abs/2306.08008v1
- Date: Tue, 13 Jun 2023 09:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 23:31:29.132864
- Title: Dynamic Interval Restrictions on Action Spaces in Deep Reinforcement
Learning for Obstacle Avoidance
- Title(参考訳): 障害物回避のための深部強化学習における動作空間の動的間隔制限
- Authors: Tim Grams
- Abstract要約: この論文では、動的障害を伴うパスフィンディングにおいて発生する間隔制限の問題について考察する。
最近の研究は、間隔の数について強い仮定で学習し、凸部分集合に限られている。
パラメータ化強化学習とConstraintNetを拡張して任意の間隔で処理することで,環境の状態に依存しない2つのアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning algorithms typically act on the same set of
actions. However, this is not sufficient for a wide range of real-world
applications where different subsets are available at each step. In this
thesis, we consider the problem of interval restrictions as they occur in
pathfinding with dynamic obstacles. When actions that lead to collisions are
avoided, the continuous action space is split into variable parts. Recent
research learns with strong assumptions on the number of intervals, is limited
to convex subsets, and the available actions are learned from the observations.
Therefore, we propose two approaches that are independent of the state of the
environment by extending parameterized reinforcement learning and ConstraintNet
to handle an arbitrary number of intervals. We demonstrate their performance in
an obstacle avoidance task and compare the methods to penalties, projection,
replacement, as well as discrete and continuous masking from the literature.
The results suggest that discrete masking of action-values is the only
effective method when constraints did not emerge during training. When
restrictions are learned, the decision between projection, masking, and our
ConstraintNet modification seems to depend on the task at hand. We compare the
results with varying complexity and give directions for future work.
- Abstract(参考訳): 深層強化学習アルゴリズムは通常、同じアクションセットで動作します。
しかし、これは各ステップで異なるサブセットが利用できる広範囲の現実世界アプリケーションには不十分である。
本稿では,動的障害を伴うパスフィンディングにおいて発生する区間制限の問題について考察する。
衝突につながる作用が回避されると、連続的な作用空間は可変部分に分割される。
最近の研究では、インターバルの数について強い仮定で学習し、凸部分集合に限定され、利用可能なアクションは観測から学習される。
そこで本研究では,パラメータ化強化学習と制約ネットを拡張して任意の間隔を扱うことにより,環境状態とは独立な2つの手法を提案する。
障害物回避タスクにおけるそれらの性能を実証し,その手法をペナルティ,投影,置換,離散的,連続的なマスキングと比較した。
その結果,訓練中に制約が出現しなかった場合,アクション値の個別マスキングが有効な方法であることがわかった。
制約が学習されると、プロジェクション、マスキング、ConstraintNet修正の間の決定は、手元にあるタスクに依存するように思われる。
結果をさまざまな複雑さと比較し、今後の作業の方向性を示します。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Primal-Dual Continual Learning: Stability and Plasticity through
Lagrange Multipliers [93.17404959573146]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
準最適境界を導出し、様々な連続学習ベンチマークで理論的結果を実証的に相関させる。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Exploring and Exploiting Decision Boundary Dynamics for Adversarial
Robustness [59.948529997062586]
既存の堅牢なトレーニング手法が、トレーニング中の各弱点点のマージンを効果的に増加させるかどうかは不明である。
本稿では,各点に対する決定境界の相対速度を定量化する連続時間フレームワークを提案する。
より小さなマージンの増大を優先する運動に決定境界が関与することを奨励するDyART(Dynamics-Aware Robust Training)を提案する。
論文 参考訳(メタデータ) (2023-02-06T18:54:58Z) - Interval Bound Interpolation for Few-shot Learning with Few Tasks [15.85259386116784]
少ないショット学習は、さまざまなタスクのトレーニングから得られた知識を、限られたラベル付きデータで見つからないタスクに転送することを目的としている。
そこで本研究では,頑健な学習文献から数ショット学習まで,インターバルバウンダリの概念を紹介した。
次に、利用可能なタスクと各インターバル境界を補間することにより、トレーニングのための新しいタスクを人工的に形成する。
論文 参考訳(メタデータ) (2022-04-07T15:29:27Z) - Learning Routines for Effective Off-Policy Reinforcement Learning [0.0]
このような制約を効果的に緩和する強化学習のための新しい枠組みを提案する。
我々のフレームワーク内では、エージェントは日常的な空間上で効果的な行動を学ぶ。
その結果,各エピソードごとの環境との相互作用を少なくしながら,関連するパフォーマンス改善が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-05T18:41:57Z) - Utilizing Skipped Frames in Action Repeats via Pseudo-Actions [13.985534521589253]
多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。
訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。
疑似アクションの概念を導入してこの問題を緩和する,シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-07T02:43:44Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。