論文の概要: Sample Efficient Social Navigation Using Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.10318v1
- Date: Fri, 18 Jun 2021 19:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:45:06.728471
- Title: Sample Efficient Social Navigation Using Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習を用いた効率的なソーシャルナビゲーション
- Authors: Bobak H. Baghi, Gregory Dudek
- Abstract要約: 本稿では,人間の軌道観測から学習する逆強化学習に基づくアルゴリズムについて述べる。
私たちは、トレーニング時間とサンプルの複雑さを減らしながら、我々のアプローチがより良いパフォーマンスをもたらすことを示しています。
- 参考スコア(独自算出の注目度): 11.764601181046498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an algorithm to efficiently learn
socially-compliant navigation policies from observations of human trajectories.
As mobile robots come to inhabit and traffic social spaces, they must account
for social cues and behave in a socially compliant manner. We focus on learning
such cues from examples. We describe an inverse reinforcement learning based
algorithm which learns from human trajectory observations without knowing their
specific actions. We increase the sample-efficiency of our approach over
alternative methods by leveraging the notion of a replay buffer (found in many
off-policy reinforcement learning methods) to eliminate the additional sample
complexity associated with inverse reinforcement learning. We evaluate our
method by training agents using publicly available pedestrian motion data sets
and compare it to related methods. We show that our approach yields better
performance while also decreasing training time and sample complexity.
- Abstract(参考訳): 本稿では,人間軌道の観測から社会的に適合したナビゲーションポリシーを効率的に学習するアルゴリズムを提案する。
移動ロボットが居住し、社会空間を交通するようになると、彼らは社会的な手がかりを考慮し、社会的に従順な行動をとる必要がある。
例から学ぶことに集中する。
本稿では,人間の軌道観測から学習する逆強化学習に基づくアルゴリズムについて述べる。
我々は,リプレイバッファ(オフ・ポリティカル強化学習法に多数存在する)の概念を活用して,逆強化学習に関連する追加のサンプル複雑性を解消し,代替手法よりもサンプル効率を向上させる。
本手法は,一般の歩行者行動データセットを用いてエージェントを訓練することで評価し,関連する手法と比較する。
このアプローチは、トレーニング時間とサンプルの複雑さを減らしながら、より良いパフォーマンスをもたらすことを示す。
関連論文リスト
- Online Context Learning for Socially-compliant Navigation [49.609656402450746]
本文では,ロボットが新たな社会環境に適応できるようにするための,オンラインコンテキスト学習手法を紹介する。
コミュニティワイドシミュレータを用いた実験により,本手法は最先端のシミュレータよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-17T12:59:13Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Boosting Feedback Efficiency of Interactive Reinforcement Learning by
Adaptive Learning from Scores [11.702616722462139]
本稿では,対話型強化学習のフィードバック効率を向上させるために,対の選好の代わりに人間が提供するスコアを利用する新しい手法を提案する。
提案手法は,相互選好学習法と比較して,フィードバックを少なくしながら,スコアから適応学習することで,最適に近いポリシーを効率的に学習できることを示す。
論文 参考訳(メタデータ) (2023-07-11T16:12:15Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Active Learning of Ordinal Embeddings: A User Study on Football Data [4.856635699699126]
人間は本来、未知の類似性関数を使用してラベル付けされていないデータセットのインスタンス間の距離を計測する。
この研究はディープ・メトリック・ラーニングを使用して、大規模なフットボールの軌跡データセットのアノテーションからユーザ定義の類似性関数を学習する。
論文 参考訳(メタデータ) (2022-07-26T07:55:23Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。