論文の概要: On-Robot Bayesian Reinforcement Learning for POMDPs
- arxiv url: http://arxiv.org/abs/2307.11954v1
- Date: Sat, 22 Jul 2023 01:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:47:18.164488
- Title: On-Robot Bayesian Reinforcement Learning for POMDPs
- Title(参考訳): pomdpのためのロボットベイズ強化学習
- Authors: Hai Nguyen, Sammie Katt, Yuchen Xiao, Christopher Amato
- Abstract要約: 本稿では,ロボット工学におけるベイズ強化学習を,物理システムのための特殊フレームワークの提案により進める。
この知識を因子表現で捉え、後続の分解を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。
次に,モンテカルロ木探索と粒子フィルタリングに基づくサンプルベースオンライン解法を提案する。
- 参考スコア(独自算出の注目度): 16.667924736270415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot learning is often difficult due to the expense of gathering data. The
need for large amounts of data can, and should, be tackled with effective
algorithms and leveraging expert information on robot dynamics. Bayesian
reinforcement learning (BRL), thanks to its sample efficiency and ability to
exploit prior knowledge, is uniquely positioned as such a solution method.
Unfortunately, the application of BRL has been limited due to the difficulties
of representing expert knowledge as well as solving the subsequent inference
problem. This paper advances BRL for robotics by proposing a specialized
framework for physical systems. In particular, we capture this knowledge in a
factored representation, then demonstrate the posterior factorizes in a similar
shape, and ultimately formalize the model in a Bayesian framework. We then
introduce a sample-based online solution method, based on Monte-Carlo tree
search and particle filtering, specialized to solve the resulting model. This
approach can, for example, utilize typical low-level robot simulators and
handle uncertainty over unknown dynamics of the environment. We empirically
demonstrate its efficiency by performing on-robot learning in two human-robot
interaction tasks with uncertainty about human behavior, achieving near-optimal
performance after only a handful of real-world episodes. A video of learned
policies is at https://youtu.be/H9xp60ngOes.
- Abstract(参考訳): データ収集の費用がかかるため、ロボット学習は難しいことが多い。
大量のデータを必要とすることは、効果的なアルゴリズムに対処し、ロボット力学のエキスパート情報を活用することができる。
ベイズ強化学習(英: Bayesian reinforcement learning, BRL)は、そのサンプル効率と事前知識を活用する能力により、そのような解法として一意に位置づけられている。
残念ながら、BRLの応用は専門家の知識を表現できないことや、その後の推論問題の解決に限られている。
本稿では,物理システムのための特殊なフレームワークを提案することにより,ロボット工学のBRLを推し進める。
特に、この知識を因子表現として捉え、後続因子化を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。
次にモンテカルロ木探索と粒子フィルタリングに基づくサンプルベースのオンライン解法を提案する。
このアプローチは、例えば、典型的な低レベルのロボットシミュレータを使用し、環境の未知のダイナミクスに対する不確実性を扱うことができる。
我々は,人間の行動に不確実性のある2つのロボットインタラクションタスクにおいてロボットによるオン・ロボット学習を実行し,ほんの数回の実世界のエピソードの後にほぼ最適に近いパフォーマンスを達成することで,その効率を実証する。
学習したポリシーのビデオはhttps://youtu.be/H9xp60ngOesにある。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Coupling Machine Learning with Ontology for Robotics Applications [0.0]
動的シナリオにおける事前知識の可用性の欠如は、間違いなくスケーラブルなマシンインテリジェンスにとって大きな障壁である。
二つの階層間の相互作用についての私の見解は、知識が知識ベース層で容易に利用できない場合、他の階層からより多くの知識を抽出できるという考えに基づいている。
論文 参考訳(メタデータ) (2024-06-08T23:38:03Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Development of a robust cascaded architecture for intelligent robot
grasping using limited labelled data [0.0]
ロボットの場合、オブジェクトを効果的に把握する方法を学ぶために多くの時間を費やす余裕はありません。
本稿では,VQVAEに基づく効率的な学習アーキテクチャを提案する。
ラベル付きデータセットが限定された場合でも,より一般化可能な半教師付き学習ベースモデルについて検討した。
論文 参考訳(メタデータ) (2021-11-06T11:01:15Z) - Learning of Parameters in Behavior Trees for Movement Skills [0.9562145896371784]
振舞い木(BT)は、モジュラーと構成可能なスキルをサポートするポリシー表現を提供することができる。
本稿では,BTポリシーのパラメータをシミュレーションで学習し,追加のトレーニングを伴わずに物理ロボットに一般化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-27T13:46:39Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。