論文の概要: Dynamic Interval Restrictions on Action Spaces in Deep Reinforcement
Learning for Obstacle Avoidance
- arxiv url: http://arxiv.org/abs/2306.08008v1
- Date: Tue, 13 Jun 2023 09:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 23:31:29.132864
- Title: Dynamic Interval Restrictions on Action Spaces in Deep Reinforcement
Learning for Obstacle Avoidance
- Title(参考訳): 障害物回避のための深部強化学習における動作空間の動的間隔制限
- Authors: Tim Grams
- Abstract要約: この論文では、動的障害を伴うパスフィンディングにおいて発生する間隔制限の問題について考察する。
最近の研究は、間隔の数について強い仮定で学習し、凸部分集合に限られている。
パラメータ化強化学習とConstraintNetを拡張して任意の間隔で処理することで,環境の状態に依存しない2つのアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning algorithms typically act on the same set of
actions. However, this is not sufficient for a wide range of real-world
applications where different subsets are available at each step. In this
thesis, we consider the problem of interval restrictions as they occur in
pathfinding with dynamic obstacles. When actions that lead to collisions are
avoided, the continuous action space is split into variable parts. Recent
research learns with strong assumptions on the number of intervals, is limited
to convex subsets, and the available actions are learned from the observations.
Therefore, we propose two approaches that are independent of the state of the
environment by extending parameterized reinforcement learning and ConstraintNet
to handle an arbitrary number of intervals. We demonstrate their performance in
an obstacle avoidance task and compare the methods to penalties, projection,
replacement, as well as discrete and continuous masking from the literature.
The results suggest that discrete masking of action-values is the only
effective method when constraints did not emerge during training. When
restrictions are learned, the decision between projection, masking, and our
ConstraintNet modification seems to depend on the task at hand. We compare the
results with varying complexity and give directions for future work.
- Abstract(参考訳): 深層強化学習アルゴリズムは通常、同じアクションセットで動作します。
しかし、これは各ステップで異なるサブセットが利用できる広範囲の現実世界アプリケーションには不十分である。
本稿では,動的障害を伴うパスフィンディングにおいて発生する区間制限の問題について考察する。
衝突につながる作用が回避されると、連続的な作用空間は可変部分に分割される。
最近の研究では、インターバルの数について強い仮定で学習し、凸部分集合に限定され、利用可能なアクションは観測から学習される。
そこで本研究では,パラメータ化強化学習と制約ネットを拡張して任意の間隔を扱うことにより,環境状態とは独立な2つの手法を提案する。
障害物回避タスクにおけるそれらの性能を実証し,その手法をペナルティ,投影,置換,離散的,連続的なマスキングと比較した。
その結果,訓練中に制約が出現しなかった場合,アクション値の個別マスキングが有効な方法であることがわかった。
制約が学習されると、プロジェクション、マスキング、ConstraintNet修正の間の決定は、手元にあるタスクに依存するように思われる。
結果をさまざまな複雑さと比較し、今後の作業の方向性を示します。
関連論文リスト
- Offline Reinforcement Learning With Combinatorial Action Spaces [12.904199719046968]
強化学習問題はしばしば、複数のサブアクションの同時実行によって生じる大きなアクション空間を伴う。
サブアクションの依存関係を効果的に把握し,各タイミングで少数のアクションのみを評価することを学習することで,大規模空間にスケールする分岐値推定(BVE)を提案する。
実験の結果,BVEは動作空間の幅にまたがって最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-28T15:49:46Z) - FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Primal Dual Continual Learning: Balancing Stability and Plasticity through Adaptive Memory Allocation [86.8475564814154]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
両変数は,制約摂動に対する連続学習問題の最適値の感度を示す。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Exploring and Exploiting Decision Boundary Dynamics for Adversarial
Robustness [59.948529997062586]
既存の堅牢なトレーニング手法が、トレーニング中の各弱点点のマージンを効果的に増加させるかどうかは不明である。
本稿では,各点に対する決定境界の相対速度を定量化する連続時間フレームワークを提案する。
より小さなマージンの増大を優先する運動に決定境界が関与することを奨励するDyART(Dynamics-Aware Robust Training)を提案する。
論文 参考訳(メタデータ) (2023-02-06T18:54:58Z) - Interval Bound Interpolation for Few-shot Learning with Few Tasks [15.85259386116784]
少ないショット学習は、さまざまなタスクのトレーニングから得られた知識を、限られたラベル付きデータで見つからないタスクに転送することを目的としている。
そこで本研究では,頑健な学習文献から数ショット学習まで,インターバルバウンダリの概念を紹介した。
次に、利用可能なタスクと各インターバル境界を補間することにより、トレーニングのための新しいタスクを人工的に形成する。
論文 参考訳(メタデータ) (2022-04-07T15:29:27Z) - Utilizing Skipped Frames in Action Repeats via Pseudo-Actions [13.985534521589253]
多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。
訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。
疑似アクションの概念を導入してこの問題を緩和する,シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-07T02:43:44Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。