論文の概要: Reward Shaping with Subgoals for Social Navigation
- arxiv url: http://arxiv.org/abs/2104.06410v1
- Date: Tue, 13 Apr 2021 13:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 04:08:31.731064
- Title: Reward Shaping with Subgoals for Social Navigation
- Title(参考訳): ソーシャルナビゲーションのためのサブゴールによる報酬形成
- Authors: Takato Okudo and Seiji Yamada
- Abstract要約: ソーシャルナビゲーションは、マシンインテリジェンスの成長と共に注目を集めている。
強化学習は、低い計算コストで予測フェーズのアクションを選択することができる。
学習を加速するサブゴールを用いた報酬形成手法を提案する。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social navigation has been gaining attentions with the growth in machine
intelligence. Since reinforcement learning can select an action in the
prediction phase at a low computational cost, it has been formulated in a
social navigation tasks. However, reinforcement learning takes an enormous
number of iterations until acquiring a behavior policy in the learning phase.
This negatively affects the learning of robot behaviors in the real world. In
particular, social navigation includes humans who are unpredictable moving
obstacles in an environment. We proposed a reward shaping method with subgoals
to accelerate learning. The main part is an aggregation method that use
subgoals to shape a reinforcement learning algorithm. We performed a learning
experiment with a social navigation task in which a robot avoided collisions
and then reached its goal. The experimental results show that our method
improved the learning efficiency from a base algorithm in the task.
- Abstract(参考訳): ソーシャルナビゲーションは、マシンインテリジェンスの成長と共に注目を集めている。
強化学習は、計算コストの低い予測フェーズで行動を選択することができるため、ソーシャルナビゲーションタスクで定式化されている。
しかし、強化学習は学習フェーズで行動ポリシーを取得するまで、膨大な回数の反復を要する。
これは現実世界におけるロボット行動の学習に悪影響を及ぼす。
特に、社会的ナビゲーションは、環境の中で予測不能な移動障害を持つ人間を含む。
学習の高速化を目的として,サブゴールを用いた報酬形成手法を提案した。
主な部分は、サブゴールを用いて強化学習アルゴリズムを形成するアグリゲーション手法である。
我々は,ロボットが衝突を回避し,目標に達するソーシャルナビゲーションタスクを用いて学習実験を行った。
実験の結果,本手法はタスクのベースアルゴリズムから学習効率を向上することがわかった。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Online Context Learning for Socially-compliant Navigation [49.609656402450746]
本文では,ロボットが新たな社会環境に適応できるようにするための,オンラインコンテキスト学習手法を紹介する。
コミュニティワイドシミュレータを用いた実験により,本手法は最先端のシミュレータよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-17T12:59:13Z) - A Study on Learning Social Robot Navigation with Multimodal Perception [6.052803245103173]
本稿では,大規模実世界のデータセットを用いたマルチモーダル認識を用いた社会ロボットナビゲーションの学習について述べる。
我々は,一助学習と多モーダル学習のアプローチを,異なる社会シナリオにおける古典的なナビゲーション手法のセットと比較する。
その結果、マルチモーダル学習は、データセットと人的学習の両方において、一助学習よりも明らかな優位性を持つことが示された。
論文 参考訳(メタデータ) (2023-09-22T01:47:47Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Relative velocity-based reward functions for crowd navigation of robots [7.671375709255977]
モバイルロボットの開発において,社会的に許容される基準でクラウド環境をナビゲートする方法は,依然として重要な課題である。
近年の研究では,歩行者の移動速度が向上するにつれて,群集ナビゲーションにおける深層強化学習の有効性が示されているが,学習効果は徐々に低下している。
深い強化学習の有効性を向上させるため,報酬関数に相対速度のペナルティ項を導入することで報酬関数を再設計した。
論文 参考訳(メタデータ) (2021-12-28T03:49:01Z) - Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement
Learning [7.6146285961466]
我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。
我々の手法は,人間の訓練者がサブゴールの知識を共有するのを容易にする。
論文 参考訳(メタデータ) (2021-04-13T14:28:48Z) - Hierarchical Affordance Discovery using Intrinsic Motivation [69.9674326582747]
本研究では,移動ロボットの価格学習を支援するために,本質的なモチベーションを用いたアルゴリズムを提案する。
このアルゴリズムは、事前にプログラムされたアクションなしで、相互に関連のある価格を自律的に発見し、学習し、適応することができる。
一度学習すると、これらの余裕はアルゴリズムによって様々な困難を伴うタスクを実行するために一連のアクションを計画するために使われる。
論文 参考訳(メタデータ) (2020-09-23T07:18:21Z) - Analysis of Social Robotic Navigation approaches: CNN Encoder and
Incremental Learning as an alternative to Deep Reinforcement Learning [1.244705780038575]
学習ループに人間を持つことは、最先端の機械学習アルゴリズムと互換性がない。
本研究では,ソーシャルナビゲーションタスクのための適応畳み込みエンコーダに関する以前の研究を分析し,この問題と解決の可能性について論じる。
論文 参考訳(メタデータ) (2020-08-18T14:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。