Fugu-MT 論文翻訳(概要): Transformable Gaussian Reward Function for Socially-Aware Navigation with Deep Reinforcement Learning

論文の概要: Transformable Gaussian Reward Function for Socially-Aware Navigation with Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.14569v2
Date: Thu, 6 Jun 2024 13:41:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 21:12:20.187027
Title: Transformable Gaussian Reward Function for Socially-Aware Navigation with Deep Reinforcement Learning
Title（参考訳）: 深い強化学習を伴う社会認識ナビゲーションのための変換可能なガウス逆流関数
Authors: Jinyeob Kim, Sumin Kang, Sungwoo Yang, Beomjoon Kim, Jargalbaatar Yura, Donghan Kim,
Abstract要約: 変形型ガウス報酬関数(TGRF)を導入する。 TGRFは、ハイパーパラメータチューニングの負担を大幅に軽減し、様々な報酬関数をまたいだ表示を行い、学習速度の高速化を示す。我々は,TGRFの概念的背景,特徴,実験,実世界の応用を明らかにするセクションを通じて,TGRFを検証する。
参考スコア（独自算出の注目度）: 1.3678186122765934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robot navigation has transitioned from prioritizing obstacle avoidance to adopting socially aware navigation strategies that accommodate human presence. As a result, the recognition of socially aware navigation within dynamic human-centric environments has gained prominence in the field of robotics. Although reinforcement learning technique has fostered the advancement of socially aware navigation, defining appropriate reward functions, especially in congested environments, has posed a significant challenge. These rewards, crucial in guiding robot actions, demand intricate human-crafted design due to their complex nature and inability to be automatically set. The multitude of manually designed rewards poses issues with hyperparameter redundancy, imbalance, and inadequate representation of unique object characteristics. To address these challenges, we introduce a transformable gaussian reward function (TGRF). The TGRF significantly reduces the burden of hyperparameter tuning, displays adaptability across various reward functions, and demonstrates accelerated learning rates, particularly excelling in crowded environments utilizing deep reinforcement learning (DRL). We introduce and validate TGRF through sections highlighting its conceptual background, characteristics, experiments, and real-world application, paving the way for a more effective and adaptable approach in robotics.The complete source code is available on https://github.com/JinnnK/TGRF
Abstract（参考訳）: ロボットナビゲーションは、障害物回避の優先順位付けから、人間の存在に対応する社会的に認識されたナビゲーション戦略へと移行した。その結果、動的人間中心環境における社会的に意識されたナビゲーションの認識は、ロボット工学の分野で注目されている。強化学習技術は、社会的に意識されたナビゲーションの進歩を促進してきたが、特に密集した環境では、適切な報酬関数を定義することが大きな課題となっている。これらの報酬は、ロボットの動きを導くのに不可欠であり、複雑な性質と自動設定できないため、複雑な人造デザインを要求する。手動で設計された報酬の多さは、ハイパーパラメータ冗長性、不均衡、およびユニークなオブジェクト特性の不十分な表現の問題を引き起こす。これらの課題に対処するために、変換可能なガウス報酬関数(TGRF)を導入する。 TGRFは、ハイパーパラメータチューニングの負担を大幅に軽減し、様々な報酬関数に対する適応性を示し、特に深層強化学習(DRL)を利用した混在環境において、学習速度の加速を示す。我々は、TGRFの概念的背景、特徴、実験、実世界の応用を強調し、ロボット工学におけるより効果的で適応可能なアプローチの道を開いたセクションを通じて、TGRFを紹介し、検証する。

関連論文リスト

DiG-Net: Enhancing Quality of Life through Hyper-Range Dynamic Gesture Recognition in Assistive Robotics [2.625826951636656]
ロボット工学に特化して設計された新しいアプローチを導入し,最大30mの距離で動的ジェスチャー認識を実現する。提案手法では,DADAブロックと時空間グラフモジュールを効果的に組み合わせ,距離対応ゲスチャネットワーク(DiG-Net)を提案する。かなりの距離からジェスチャーを効果的に解釈することにより、DiG-Netは在宅医療、産業安全、遠隔支援シナリオにおける補助ロボットのユーザビリティを著しく向上させる。
論文参考訳（メタデータ） (2025-05-30T16:47:44Z)
Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning [54.26816599309778]
動的バランスと強化学習(RL)に基づく新しい全身移動アルゴリズムを提案する。具体的には,ZMP(Zero-Moment Point)駆動の報酬とタスク駆動の報酬を,全身のアクター批判的枠組みで拡張した尺度を活用することで,動的バランス機構を導入する。フルサイズのUnitree H1-2ロボットによる実験により、非常に狭い地形でのバランスを維持するための手法の有効性が検証された。
論文参考訳（メタデータ） (2025-02-24T14:53:45Z)
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards [29.923942622540356]
動的タスク仕様として機能するPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介する。我々はシミュレーションで現実のシーンを再構築し、生成した報酬を使って強化学習ポリシーを訓練する。この結果から,ロボットが動的環境下で複数ステップのタスクを行えるようにしたIKERの有効性が示唆された。
論文参考訳（メタデータ） (2025-02-12T18:57:22Z)
Deep Reinforcement Learning-based Obstacle Avoidance for Robot Movement in Warehouse Environments [6.061908707850057]
本稿では,移動ロボット障害物回避アルゴリズムである倉庫環境に基づく深層強化学習を提案する。深部強化学習アルゴリズムにおける値関数ネットワークの学習能力不足に対して、歩行者間の相互作用情報を歩行者角度グリッドを介して抽出する。歩行者の空間行動に基づいて、強化学習の報酬関数を設計し、その角度が過度に変化する状態に対して、ロボットを罰する。
論文参考訳（メタデータ） (2024-09-23T12:42:35Z)
Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文参考訳（メタデータ） (2024-07-14T21:41:29Z)
Deep Reinforcement Learning with Enhanced PPO for Safe Mobile Robot Navigation [0.6554326244334868]
本研究では,複雑な環境下での自律走行のための移動ロボットの訓練における深層強化学習の適用について検討する。このロボットは、LiDARセンサデータとディープニューラルネットワークを用いて、障害物を回避しつつ、特定の目標に向かって誘導する制御信号を生成する。
論文参考訳（メタデータ） (2024-05-25T15:08:36Z)
Belief Aided Navigation using Bayesian Reinforcement Learning for Avoiding Humans in Blind Spots [0.0]
本研究では、部分的に観測可能なマルコフ決定プロセスフレームワークに基づく新しいアルゴリズムBNBRL+を導入し、観測不能領域のリスクを評価する。ロボット、人間、そして推論された信念のダイナミクスを統合し、ナビゲーションパスを決定し、報酬関数に社会規範を埋め込む。このモデルでは、視認性に限界があり、障害物を動的に回避できるため、自動運転車の安全性と信頼性を大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-15T08:50:39Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Robot path planning using deep reinforcement learning [0.0]
強化学習法は、地図のないナビゲーションタスクに代わる手段を提供する。障害物回避と目標指向ナビゲーションタスクの両方に深部強化学習エージェントを実装した。報酬関数の変更によるエージェントの挙動と性能の変化を解析する。
論文参考訳（メタデータ） (2023-02-17T20:08:59Z)
Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文参考訳（メタデータ） (2022-04-07T14:07:51Z)
Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文参考訳（メタデータ） (2022-03-28T19:09:11Z)
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文参考訳（メタデータ） (2021-10-28T17:59:30Z)
Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文参考訳（メタデータ） (2020-11-06T07:39:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。