論文の概要: Active Reward Learning for Co-Robotic Vision Based Exploration in
Bandwidth Limited Environments
- arxiv url: http://arxiv.org/abs/2003.05016v1
- Date: Tue, 10 Mar 2020 21:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:29:02.442534
- Title: Active Reward Learning for Co-Robotic Vision Based Exploration in
Bandwidth Limited Environments
- Title(参考訳): 帯域限定環境におけるコロボティックビジョンに基づく探索のためのアクティブリワード学習
- Authors: Stewart Jamieson, Jonathan P. How, Yogesh Girdhar
- Abstract要約: 本稿では,新しい,科学的に関係のある画像の収集場所を自律的に決定する必要があるロボットに対して,新しいPOMDP問題定式化を提案する。
我々は,そのようなロボットの観察モデル,報酬モデル,コミュニケーション戦略の制約と設計原則を導出する。
本稿では,ロボットがオンラインの「レグレット」を最小化するためのクエリ作成に基づく,新たなアクティブな報酬学習戦略を提案する。
- 参考スコア(独自算出の注目度): 40.47144302684855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel POMDP problem formulation for a robot that must
autonomously decide where to go to collect new and scientifically relevant
images given a limited ability to communicate with its human operator. From
this formulation we derive constraints and design principles for the
observation model, reward model, and communication strategy of such a robot,
exploring techniques to deal with the very high-dimensional observation space
and scarcity of relevant training data. We introduce a novel active reward
learning strategy based on making queries to help the robot minimize path
"regret" online, and evaluate it for suitability in autonomous visual
exploration through simulations. We demonstrate that, in some bandwidth-limited
environments, this novel regret-based criterion enables the robotic explorer to
collect up to 17% more reward per mission than the next-best criterion.
- Abstract(参考訳): 我々は,人間の操作者との通信能力に制限があるため,新たな科学的関連画像の収集場所を自律的に決定しなければならないロボットのための新しいPOMDP問題定式化を提案する。
この定式化から,このようなロボットの観察モデル,報酬モデル,コミュニケーション戦略に対する制約と設計原則を導出し,非常に高次元の観察空間と関連する訓練データの不足に対処する手法を探求する。
提案手法は,ロボットがオンラインの「レグレット」を最小化するためのクエリ作成に基づく,新たな能動的報酬学習戦略を導入し,シミュレーションによる自律的な視覚探索の適性を評価する。
帯域制限のある環境では、この新たな後悔に基づく基準により、ロボット探検家は次の最高の基準よりも、1ミッションあたり最大17%の報酬を集めることができる。
関連論文リスト
- A Retrospective on the Robot Air Hockey Challenge: Benchmarking Robust, Reliable, and Safe Learning Techniques for Real-world Robotics [53.33976793493801]
私たちは、NeurIPS 2023カンファレンスでRobot Air Hockey Challengeを組織しました。
我々は、シム・トゥ・リアルギャップ、低レベルの制御問題、安全性問題、リアルタイム要件、実世界のデータの限られた可用性など、ロボット工学における実践的な課題に焦点を当てる。
その結果、学習に基づくアプローチと事前知識を組み合わせたソリューションは、実際のデプロイメントが困難である場合にデータのみに依存するソリューションよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-08T17:20:47Z) - Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative Path Planning [22.48658555542736]
ロボットデータ取得における重要な課題は、当初未知の環境を抜けて観測を収集する計画経路である。
そこで本研究では,未知の3D環境において,ロボット経路を適応的に計画し,対象をマップする深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:24:41Z) - How to Raise a Robot -- A Case for Neuro-Symbolic AI in Constrained Task
Planning for Humanoid Assistive Robots [4.286794014747407]
ロボットタスク計画手法を用いて,プライバシ,セキュリティ,アクセス制御の制約を取り入れた新しい分野を探求する。
本稿では,古典的シンボリックアプローチ,深層学習ニューラルネットワーク,および知識ベースとして大規模言語モデルを用いた現代的アイデアに関する予備的結果を報告する。
論文 参考訳(メタデータ) (2023-12-14T11:09:50Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Learning Human-to-Robot Handovers from Point Clouds [63.18127198174958]
視覚に基づく人間ロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。
シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。
論文 参考訳(メタデータ) (2023-03-30T17:58:36Z) - Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。
我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文 参考訳(メタデータ) (2022-10-23T18:07:51Z) - Low Dimensional State Representation Learning with Robotics Priors in
Continuous Action Spaces [8.692025477306212]
強化学習アルゴリズムは、エンドツーエンドで複雑なロボティクスタスクを解くことができることが証明されている。
本稿では,ロボットの生の知覚情報から得られる高次元の観察から,低次元状態表現の学習と最適ポリシーの学習を組み合わせた枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-04T15:42:01Z) - Reward Conditioned Neural Movement Primitives for Population Based
Variational Policy Optimization [4.559353193715442]
本稿では,教師あり学習における報酬に基づく政策探索問題について考察する。
本手法は, 最先端のロボット強化学習法と比較して, 学習の進歩と, サンプル効率の大幅な向上を図っている。
論文 参考訳(メタデータ) (2020-11-09T09:53:37Z) - The Chef's Hat Simulation Environment for Reinforcement-Learning-Based
Agents [54.63186041942257]
本稿では,人間-ロボットインタラクションのシナリオで使用されるように設計されたChef's Hatカードゲームを実装する仮想シミュレーション環境を提案する。
本稿では,強化学習アルゴリズムにおける制御可能かつ再現可能なシナリオを提案する。
論文 参考訳(メタデータ) (2020-03-12T15:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。