論文の概要: Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies
- arxiv url: http://arxiv.org/abs/2312.07953v2
- Date: Thu, 14 Dec 2023 06:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 11:20:26.015647
- Title: Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies
- Title(参考訳): ロボットナビゲーションの強化:単目的および多目的強化学習戦略の評価
- Authors: Vicki Young, Jumman Hossain, Nirmalya Roy
- Abstract要約: 本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
- 参考スコア(独自算出の注目度): 0.9208007322096532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a comparative analysis between single-objective and
multi-objective reinforcement learning methods for training a robot to navigate
effectively to an end goal while efficiently avoiding obstacles. Traditional
reinforcement learning techniques, namely Deep Q-Network (DQN), Deep
Deterministic Policy Gradient (DDPG), and Twin Delayed DDPG (TD3), have been
evaluated using the Gazebo simulation framework in a variety of environments
with parameters such as random goal and robot starting locations. These methods
provide a numerical reward to the robot, offering an indication of action
quality in relation to the goal. However, their limitations become apparent in
complex settings where multiple, potentially conflicting, objectives are
present. To address these limitations, we propose an approach employing
Multi-Objective Reinforcement Learning (MORL). By modifying the reward function
to return a vector of rewards, each pertaining to a distinct objective, the
robot learns a policy that effectively balances the different goals, aiming to
achieve a Pareto optimal solution. This comparative study highlights the
potential for MORL in complex, dynamic robotic navigation tasks, setting the
stage for future investigations into more adaptable and robust robotic
behaviors.
- Abstract(参考訳): 本研究では,ロボットが障害を効果的に回避しつつ,目標に向かって効果的に移動できるように訓練するための単目的・多目的強化学習法の比較分析を行った。
従来の強化学習技術であるDeep Q-Network(DQN)、Deep Deterministic Policy Gradient(DDPG)、Twin Delayed DDPG(TD3)は、ランダムゴールやロボット開始位置などのパラメータを持つ様々な環境下でGazeboシミュレーションフレームワークを用いて評価されている。
これらの方法はロボットに数値的な報酬を与え、目標に関連する行動品質の指標を提供する。
しかし、それらの制限は、複数の、潜在的に矛盾する目標が存在する複雑な設定で明らかになる。
そこで本研究では,多目的強化学習(morl)を用いた手法を提案する。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットは、パレート最適解を達成するために、それぞれの目標を効果的にバランスさせるポリシーを学ぶ。
この比較研究は、複雑な動的ロボットナビゲーションタスクにおけるMORLの可能性を強調し、より適応性があり堅牢なロボットの動作に関する将来の研究の舞台となる。
関連論文リスト
- Dynamic value alignment through preference aggregation of multiple
objectives [0.0]
動的値アライメントの方法論として,アライメントすべき値が動的に変化する手法を提案する。
本稿では,複数の目的に対応するためにDeep $Q$-Learningを拡張し,単純化した2脚交点上で評価する。
論文 参考訳(メタデータ) (2023-10-09T17:07:26Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Deep Reinforcement Learning with Adaptive Hierarchical Reward for
MultiMulti-Phase Multi Multi-Objective Dexterous Manipulation [11.638614321552616]
優先度の変動により、ロボットは深層強化学習(DRL)法で最適なポリシーをほとんど学ばず、あるいはうまくいかなかった。
我々は、DRLエージェントを誘導し、複数の優先順位付けされた目的を持つ操作タスクを学習するための、新しい適応階層リワード機構(AHRM)を開発した。
提案手法は,JACOロボットアームを用いた多目的操作タスクにおいて検証される。
論文 参考訳(メタデータ) (2022-05-26T15:44:31Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。