論文の概要: Privileged Sensing Scaffolds Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.14853v1
- Date: Thu, 23 May 2024 17:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:27:25.686024
- Title: Privileged Sensing Scaffolds Reinforcement Learning
- Title(参考訳): プライヴィレグドセンシングによる強化学習
- Authors: Edward S. Hu, James Springer, Oleh Rybkin, Dinesh Jayaraman,
- Abstract要約: 人工エージェントの訓練のための官能的足場設定について検討する。
スカフフォルダー(Scaffolder)は、批評家の特権感覚を効果的に活用する強化学習手法である。
エージェントは、ブラインドハードルを訓練するために特権カメラセンサーを使用しなければなりません。
- 参考スコア(独自算出の注目度): 28.100745092661587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We need to look at our shoelaces as we first learn to tie them but having mastered this skill, can do it from touch alone. We call this phenomenon "sensory scaffolding": observation streams that are not needed by a master might yet aid a novice learner. We consider such sensory scaffolding setups for training artificial agents. For example, a robot arm may need to be deployed with just a low-cost, robust, general-purpose camera; yet its performance may improve by having privileged training-time-only access to informative albeit expensive and unwieldy motion capture rigs or fragile tactile sensors. For these settings, we propose "Scaffolder", a reinforcement learning approach which effectively exploits privileged sensing in critics, world models, reward estimators, and other such auxiliary components that are only used at training time, to improve the target policy. For evaluating sensory scaffolding agents, we design a new "S3" suite of ten diverse simulated robotic tasks that explore a wide range of practical sensor setups. Agents must use privileged camera sensing to train blind hurdlers, privileged active visual perception to help robot arms overcome visual occlusions, privileged touch sensors to train robot hands, and more. Scaffolder easily outperforms relevant prior baselines and frequently performs comparably even to policies that have test-time access to the privileged sensors. Website: https://penn-pal-lab.github.io/scaffolder/
- Abstract(参考訳): 最初に靴ひもを縛ることを学びましたが、このスキルを習得したので、タッチだけでできるのです。
我々は、この現象を「感覚的な足場」と呼んでいる:マスターが必要としない観察ストリームは、初心者の学習者を助けるかもしれない。
人工エージェントを訓練するための感覚的足場設定について検討する。
例えば、ロボットアームは、低価格で頑丈で汎用的なカメラで展開する必要があるが、その性能は、高価で控えめなモーションキャプチャーリグや、壊れやすい触覚センサーに特権的な訓練時間のみアクセスすることで改善される。
これらの設定のために,批判者,世界モデル,報酬推定器など,訓練時にのみ使用される補助的要素を効果的に活用し,目標政策を改善するための強化学習手法「Scaffolder」を提案する。
センサスキャフォールディングエージェントを評価するため,我々は,多種多様な10種類のロボットタスクからなる「S3」スイートを設計した。
エージェントは、視覚障害者を訓練するために特権カメラセンサーを使用し、ロボットアームが視覚的閉塞を克服するのを助けるために、アクティブな視覚認知、ロボットハンドを訓練するための特権タッチセンサーなどを使用する必要がある。
スカフォルダーは、関連する事前ベースラインを容易に上回り、特権センサにテストタイムアクセス可能なポリシーに対しても、相容れないほど頻繁に機能する。
ウェブサイト:https://penn-pal-lab.github.io/scaffolder/
関連論文リスト
- Robust Robot Walker: Learning Agile Locomotion over Tiny Traps [28.920959351960413]
そこで我々は,四足歩行ロボットが様々な小さな障害物や「小さなトラップ」を通過できるようにする新しい手法を提案する。
既存の方法は、しばしば外部受容センサーに依存しており、そのような小さなトラップを検出するには信頼性が低い。
本稿では,異なるトラップの暗黙的表現を学習するために,コンタクトエンコーダと分類ヘッドを組み込んだ2段階のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-11T16:50:29Z) - DexTouch: Learning to Seek and Manipulate Objects with Tactile Dexterity [11.450027373581019]
視覚に頼らずに触覚で物体を操作できる多指ロボットシステムを提案する。
日常の生活を模倣するタスクのために、ロボットは触覚を使ってランダムに配置された物体を暗く操作する。
論文 参考訳(メタデータ) (2024-01-23T05:37:32Z) - See to Touch: Learning Tactile Dexterity through Visual Incentives [20.586023376454115]
触覚に基づくデキスタリティを高める新しいフレームワークである視覚インセンティブ(TAVI)による触覚適応を提案する。
6つの課題において、TAVIは我々の4本指のアレグロロボットを使って73%の成功率を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:58:13Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Rotating without Seeing: Towards In-hand Dexterity through Touch [43.87509744768282]
本稿では,タッチデクスタリティ(Touch Dexterity)を提案する。
小さな領域で正確な触覚センサーに頼る代わりに、ロボットハンドの片側をオーバーレイする密度の高い二分力センサー(タッチまたはタッチなし)を用いた新しいシステム設計を導入する。
我々は,各種物体のシミュレーションに強化学習を用いて手動回転ポリシーを訓練する。タッチオンリーセンシングを応用して,実際のロボットの手で直接ポリシーを展開し,トレーニングで提示されていない新規物体を回転させることができる。
論文 参考訳(メタデータ) (2023-03-20T05:38:30Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - DexVIP: Learning Dexterous Grasping with Human Hand Pose Priors from
Video [86.49357517864937]
DexVIPは,人間と物体のインタラクションビデオから,器用なロボットの把握を学習する手法である。
我々は、人間とオブジェクトのインタラクションビデオから把握した画像をキュレートし、エージェントの手のポーズに先行する。
DexVIPは、手ポーズの無い既存のアプローチや、特殊な遠隔操作機器に頼っている既存のアプローチと良好に比較できることを実証する。
論文 参考訳(メタデータ) (2022-02-01T00:45:57Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Dexterous Grasping with Object-Centric Visual Affordances [86.49357517864937]
控えめなロボットハンドは、機敏さと人間のような形態をアピールしています。
本稿では,厳密な把握を学習するためのアプローチを提案する。
私たちのキーとなるアイデアは、オブジェクト中心の視覚的余裕モデルを深い強化学習ループに埋め込むことです。
論文 参考訳(メタデータ) (2020-09-03T04:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。