論文の概要: MDPs with Unawareness in Robotics
- arxiv url: http://arxiv.org/abs/2005.10381v1
- Date: Wed, 20 May 2020 22:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:47:41.748000
- Title: MDPs with Unawareness in Robotics
- Title(参考訳): ロボットにおける無意識のMDP
- Authors: Nan Rong, Joseph Y. Halpern, Ashutosh Saxena
- Abstract要約: 連続的なMDPと連続的な時間間隔で発生する動作を用いてロボット工学における意思決定問題を定式化する。
意思決定者はどの行動が「興味深い」かを知らないと見なすことができる。
本研究は,MDPUの連続作業における準最適政策を学習することの難しさを実証するものである。
- 参考スコア(独自算出の注目度): 12.70858477238023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We formalize decision-making problems in robotics and automated control using
continuous MDPs and actions that take place over continuous time intervals. We
then approximate the continuous MDP using finer and finer discretizations.
Doing this results in a family of systems, each of which has an extremely large
action space, although only a few actions are "interesting". We can view the
decision maker as being unaware of which actions are "interesting". We can
model this using MDPUs, MDPs with unawareness, where the action space is much
smaller. As we show, MDPUs can be used as a general framework for learning
tasks in robotic problems. We prove results on the difficulty of learning a
near-optimal policy in an an MDPU for a continuous task. We apply these ideas
to the problem of having a humanoid robot learn on its own how to walk.
- Abstract(参考訳): ロボット工学における意思決定問題と自動制御を連続的なMDPと連続的な時間間隔で行う動作を用いて定式化する。
次に、より細かい離散化とより細かい離散化を用いて連続mdpを近似する。
この結果、非常に大きなアクション空間を持つシステムのファミリーとなるが、いくつかのアクションだけが「興味深い」ものである。
意思決定者はどのアクションが"興味深い"かを知らないと見なすことができます。
我々はMDPUや無意識のMDPを使ってこれをモデル化することができる。
示すように、MDPUはロボット問題におけるタスク学習の一般的なフレームワークとして使用できる。
本研究は,MDPUの連続作業における準最適政策を学習することの難しさを実証するものである。
これらのアイデアを、ヒューマノイドロボットが独自の歩行方法を学ぶという問題に適用する。
関連論文リスト
- Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? [33.573056018368504]
本研究では,Multimodal LLM for Robotic (MMRo)ベンチマークを評価するための最初のベンチマークを紹介する。
我々は、MLLMがロボットの中央処理ユニットとして持つべき4つの重要な能力知覚、タスク計画、視覚的推論、安全性の測定を識別する。
以上の結果から,現在のMLLMはロボットの認知コアとして機能するほど信頼できないことが示唆された。
論文 参考訳(メタデータ) (2024-06-28T07:09:06Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Learning to Coordinate for a Worker-Station Multi-robot System in Planar
Coverage Tasks [16.323122275188354]
ランダムな動的干渉器を有する大規模平面領域におけるマルチロボットカバレッジパス計画問題に着目する。
本稿では,実際の作業に必要なリソースが限られている複数の作業者と,資源補給に十分なリソースを持つ1つのステーションからなる作業者ステーションMSSを紹介する。
本稿では、労働者のカバレッジプランニングと駅のランデブープランニングを同時に解決する、エンドツーエンドの分散オンラインプランニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T05:36:42Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Large Scale Distributed Collaborative Unlabeled Motion Planning with
Graph Policy Gradients [122.85280150421175]
本研究では,運動制約と空間制約を多数のロボットに対して2次元空間で解くための学習法を提案する。
ロボットのポリシーをパラメータ化するためにグラフニューラルネットワーク(GNN)を用いる。
論文 参考訳(メタデータ) (2021-02-11T21:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。