論文の概要: Variational Meta Reinforcement Learning for Social Robotics
- arxiv url: http://arxiv.org/abs/2206.03211v4
- Date: Thu, 3 Aug 2023 15:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 01:20:21.928681
- Title: Variational Meta Reinforcement Learning for Social Robotics
- Title(参考訳): 社会ロボットのための変分メタ強化学習
- Authors: Anand Ballou, Xavier Alameda-Pineda, Chris Reinke
- Abstract要約: 社会ロボティクスは依然として多くの課題に直面している。
1つのボトルネックは、社会規範が環境に強く依存するため、ロボットの振る舞いを頻繁に適応させることである。
本研究ではメタ強化学習(meta-RL)を潜在的ソリューションとして検討する。
- 参考スコア(独自算出の注目度): 15.754961709819938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing presence of robots in our every-day environments,
improving their social skills is of utmost importance. Nonetheless, social
robotics still faces many challenges. One bottleneck is that robotic behaviors
need to be often adapted as social norms depend strongly on the environment.
For example, a robot should navigate more carefully around patients in a
hospital compared to workers in an office. In this work, we investigate
meta-reinforcement learning (meta-RL) as a potential solution. Here, robot
behaviors are learned via reinforcement learning where a reward function needs
to be chosen so that the robot learns an appropriate behavior for a given
environment. We propose to use a variational meta-RL procedure that quickly
adapts the robots' behavior to new reward functions. As a result, given a new
environment different reward functions can be quickly evaluated and an
appropriate one selected. The procedure learns a vectorized representation for
reward functions and a meta-policy that can be conditioned on such a
representation. Given observations from a new reward function, the procedure
identifies its representation and conditions the meta-policy to it. While
investigating the procedures' capabilities, we realized that it suffers from
posterior collapse where only a subset of the dimensions in the representation
encode useful information resulting in a reduced performance. Our second
contribution, a radial basis function (RBF) layer, partially mitigates this
negative effect. The RBF layer lifts the representation to a higher dimensional
space, which is more easily exploitable for the meta-policy. We demonstrate the
interest of the RBF layer and the usage of meta-RL for social robotics on four
robotic simulation tasks.
- Abstract(参考訳): 日々の環境においてロボットの存在感が高まる中、社会的スキルの向上は極めて重要である。
それでも、ソーシャルロボティクスは多くの課題に直面している。
一つのボトルネックは、ロボットの行動は環境に強く依存する社会規範として適応する必要があることである。
例えば、ロボットは、オフィスで働く人に比べて、病院の患者の周りを慎重に移動する必要がある。
本研究ではメタ強化学習(meta-RL)を潜在的ソリューションとして検討する。
ここでは、ロボットが所定の環境に対して適切な行動を学ぶために、報酬関数を選択する必要がある強化学習を通じてロボットの動作を学習する。
本稿では,ロボットの動作を新たな報酬関数に迅速に適応する変分メタRL手法を提案する。
その結果、新しい環境が与えられると、異なる報酬関数を迅速に評価し、適切なものを選択できる。
この手順は、報酬関数のベクトル化表現と、そのような表現に条件付けできるメタ政治を学習する。
新しい報酬関数からの観察によって、手続きはその表現とそれに対するメタポリシーを識別する。
手順の能力を調査する中で,表現の次元のサブセットのみが有用な情報をエンコードし,結果として性能が低下する後方崩壊に苦しむことが判明した。
第2の貢献である放射基底関数(RBF)層は、この負の効果を部分的に緩和する。
RBF層は高次元空間に表現を持ち上げ、メタ政治にとってより容易に利用することができる。
4つのロボットシミュレーションタスクにおいて,RBF層の関心とメタRLの社会ロボティクスへの応用を示す。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Latent Representations to Co-Adapt to Humans [12.71953776723672]
非定常的な人間はロボット学習者に挑戦しています。
本稿では,ロボットが動的人間と協調して適応できるアルゴリズム形式について紹介する。
論文 参考訳(メタデータ) (2022-12-19T16:19:24Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - A General, Evolution-Inspired Reward Function for Social Robotics [0.0]
本稿では,ソーシャルロボティクスにおける強化学習エージェントの展開に必要なリアルタイムかつ高密度な報酬機能を提供するメカニズムとして,ソーシャル・リワード機能を提案する。
ソーシャル・リワード・ファンクション(Social Reward Function)は、単純で安定的で文化に依存しない報酬機能を提供することを目的として、人間の遺伝的に与えられた社会的知覚能力を忠実に模倣するように設計されている。
論文 参考訳(メタデータ) (2022-02-01T18:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。