論文の概要: Transformable Gaussian Reward Function for Socially-Aware Navigation
with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.14569v1
- Date: Thu, 22 Feb 2024 14:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:52:10.673753
- Title: Transformable Gaussian Reward Function for Socially-Aware Navigation
with Deep Reinforcement Learning
- Title(参考訳): 深い強化学習を伴う社会認識ナビゲーションのための変換可能なガウス回帰関数
- Authors: Jinyeob Kim, Sumin Kang, Sungwoo Yang, Beomjoon Kim, Jargalbaatar
Yura, Donghan Kim
- Abstract要約: 変形型ガウス報酬関数(TGRF)を導入する。
TGRFは、ハイパーパラメータチューニングの負担を大幅に軽減し、様々な報酬関数をまたいだ表示を行い、学習速度の高速化を示す。
我々は,TGRFの概念的背景,特徴,実験,実世界の応用を明らかにするセクションを通じて,TGRFを検証する。
- 参考スコア(独自算出の注目度): 1.4493622422645052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot navigation has transitioned from prioritizing obstacle avoidance to
adopting socially aware navigation strategies that accommodate human presence.
As a result, the recognition of socially aware navigation within dynamic
human-centric environments has gained prominence in the field of robotics.
Although reinforcement learning technique has fostered the advancement of
socially aware navigation, defining appropriate reward functions, especially in
congested environments, has posed a significant challenge. These rewards,
crucial in guiding robot actions, demand intricate human-crafted design due to
their complex nature and inability to be automatically set. The multitude of
manually designed rewards poses issues with hyperparameter redundancy,
imbalance, and inadequate representation of unique object characteristics. To
address these challenges, we introduce a transformable gaussian reward function
(TGRF). The TGRF significantly reduces the burden of hyperparameter tuning,
displays adaptability across various reward functions, and demonstrates
accelerated learning rates, particularly excelling in crowded environments
utilizing deep reinforcement learning (DRL). We introduce and validate TGRF
through sections highlighting its conceptual background, characteristics,
experiments, and real-world application, paving the way for a more effective
and adaptable approach in robotics.The complete source code is available on
https://github.com/JinnnK/TGRF
- Abstract(参考訳): ロボットナビゲーションは、障害物回避の優先順位付けから、人間の存在に対応する社会的に認識されたナビゲーション戦略へと移行した。
その結果、動的人間中心環境における社会的に意識されたナビゲーションの認識は、ロボット工学の分野で注目されている。
強化学習技術は社会的に認識されたナビゲーションの進歩を促進させたが、特に混雑環境において適切な報酬関数を定義することは大きな課題となった。
これらの報酬は、ロボットの動きを導くのに不可欠であり、複雑な性質と自動設定できないため、複雑な人造デザインを要求する。
多数の手動で設計された報酬は、ハイパーパラメータ冗長性、不均衡、ユニークなオブジェクト特性の不十分な表現に問題を引き起こす。
これらの課題に対処するために、変換可能なガウス報酬関数(TGRF)を導入する。
TGRFは、ハイパーパラメータチューニングの負担を大幅に軽減し、様々な報酬関数に対する適応性を示し、特に深層強化学習(DRL)を利用した混在環境において、学習速度の加速を示す。
我々は、TGRFの概念的背景、特徴、実験、実世界の応用を強調し、ロボット工学におけるより効果的で適応可能なアプローチの道を開いたセクションを通じて、TGRFを紹介し、検証する。
関連論文リスト
- Deep Reinforcement Learning-based Obstacle Avoidance for Robot Movement in Warehouse Environments [6.061908707850057]
本稿では,移動ロボット障害物回避アルゴリズムである倉庫環境に基づく深層強化学習を提案する。
深部強化学習アルゴリズムにおける値関数ネットワークの学習能力不足に対して、歩行者間の相互作用情報を歩行者角度グリッドを介して抽出する。
歩行者の空間行動に基づいて、強化学習の報酬関数を設計し、その角度が過度に変化する状態に対して、ロボットを罰する。
論文 参考訳(メタデータ) (2024-09-23T12:42:35Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Deep Reinforcement Learning with Enhanced PPO for Safe Mobile Robot Navigation [0.6554326244334868]
本研究では,複雑な環境下での自律走行のための移動ロボットの訓練における深層強化学習の適用について検討する。
このロボットは、LiDARセンサデータとディープニューラルネットワークを用いて、障害物を回避しつつ、特定の目標に向かって誘導する制御信号を生成する。
論文 参考訳(メタデータ) (2024-05-25T15:08:36Z) - Belief Aided Navigation using Bayesian Reinforcement Learning for Avoiding Humans in Blind Spots [0.0]
本研究では、部分的に観測可能なマルコフ決定プロセスフレームワークに基づく新しいアルゴリズムBNBRL+を導入し、観測不能領域のリスクを評価する。
ロボット、人間、そして推論された信念のダイナミクスを統合し、ナビゲーションパスを決定し、報酬関数に社会規範を埋め込む。
このモデルでは、視認性に限界があり、障害物を動的に回避できるため、自動運転車の安全性と信頼性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-15T08:50:39Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Robot path planning using deep reinforcement learning [0.0]
強化学習法は、地図のないナビゲーションタスクに代わる手段を提供する。
障害物回避と目標指向ナビゲーションタスクの両方に深部強化学習エージェントを実装した。
報酬関数の変更によるエージェントの挙動と性能の変化を解析する。
論文 参考訳(メタデータ) (2023-02-17T20:08:59Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。
本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文 参考訳(メタデータ) (2020-11-06T07:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。