論文の概要: Visual Backtracking Teleoperation: A Data Collection Protocol for
Offline Image-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.02343v1
- Date: Wed, 5 Oct 2022 15:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 15:21:41.369543
- Title: Visual Backtracking Teleoperation: A Data Collection Protocol for
Offline Image-Based Reinforcement Learning
- Title(参考訳): visual backtracking teleoperation: オフライン画像ベース強化学習のためのデータ収集プロトコル
- Authors: David Brandfonbrener, Stephen Tu, Avi Singh, Stefan Welker, Chad
Boodoo, Nikolai Matni, Jake Varley
- Abstract要約: 我々は、視覚的に類似した障害、回復、成功のデータセットを意図的に収集する新しいプロトコルを開発する。
VBTデータにおけるオフライン強化学習は,実演データの標準的クローン化を13%向上させることがわかった。
- 参考スコア(独自算出の注目度): 13.759422180148716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider how to most efficiently leverage teleoperator time to collect
data for learning robust image-based value functions and policies for sparse
reward robotic tasks. To accomplish this goal, we modify the process of data
collection to include more than just successful demonstrations of the desired
task. Instead we develop a novel protocol that we call Visual Backtracking
Teleoperation (VBT), which deliberately collects a dataset of visually similar
failures, recoveries, and successes. VBT data collection is particularly useful
for efficiently learning accurate value functions from small datasets of
image-based observations. We demonstrate VBT on a real robot to perform
continuous control from image observations for the deformable manipulation task
of T-shirt grasping. We find that by adjusting the data collection process we
improve the quality of both the learned value functions and policies over a
variety of baseline methods for data collection. Specifically, we find that
offline reinforcement learning on VBT data outperforms standard behavior
cloning on successful demonstration data by 13% when both methods are given
equal-sized datasets of 60 minutes of data from the real robot.
- Abstract(参考訳): 我々は,遠隔操作時間を最大限に活用し,頑健な画像に基づく価値関数の学習のためのデータ収集と,報酬ロボットタスクの分散のためのポリシーを検討する。
この目標を達成するために、私たちはデータ収集のプロセスを変更し、目的とするタスクのデモ以上のものを含むようにします。
代わりに、視覚的に類似した障害、回復、成功のデータセットを意図的に収集するVisual Backtracking Teleoperation (VBT)と呼ばれる新しいプロトコルを開発しました。
VBTデータ収集は、画像ベースの小さなデータセットから正確な値関数を効率的に学習するのに特に有用である。
tシャツ把持の変形可能な操作タスクのための画像観察から連続制御を行う実ロボットのvbtを実演する。
データ収集のプロセスを調整することで、学習した値関数とポリシーの両方の品質を、データ収集のためのさまざまなベースラインメソッドで改善できることが分かりました。
特に,実ロボットから60分分の等サイズのデータセットを与えられた場合,vbtデータのオフライン強化学習は,実演データ上での標準的な動作クローンを13%上回ることがわかった。
関連論文リスト
- CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - LEAVES: Learning Views for Time-Series Data in Contrastive Learning [16.84326709739788]
時系列データのための学習ビュー(LEAVES)という,対照的な学習における時系列データのビュー生成を自動化するモジュールを提案する。
提案手法は, 合理的な視点の探索に有効であり, ベースラインよりも下流タスクを効果的に行う。
論文 参考訳(メタデータ) (2022-10-13T20:18:22Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Efficient Self-Supervised Data Collection for Offline Robot Learning [17.461103383630853]
ロボット強化学習の実用的なアプローチは、まずリアルまたはシミュレートされたロボット相互作用データの大規模なバッチを収集することです。
我々は,新しい観測結果にデータ収集を積極的に焦点をあてる,簡便な目標条件強化学習法を開発した。
論文 参考訳(メタデータ) (2021-05-10T18:42:58Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Online Descriptor Enhancement via Self-Labelling Triplets for Visual
Data Association [28.03285334702022]
オブジェクトレベルの視覚データアソシエーションのタスクにおいて,視覚記述子を漸進的に精製する自己教師型手法を提案する。
本手法は,ドメインに依存しないデータで事前学習した画像分類ネットワークを継続的にトレーニングすることにより,オンラインのディープディスクリプタジェネレータを最適化する。
提案手法はトラッキング・バイ・ディテクト・タスクに適用された他の視覚的データ・アソシエーション手法を超越し,観測情報に適応しようとする他の手法と比較して,優れた性能向上を提供することを示す。
論文 参考訳(メタデータ) (2020-11-06T17:42:04Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Learning Test-time Augmentation for Content-based Image Retrieval [42.188013259368766]
オフザシェルフ畳み込みニューラルネットワークは、多くの画像検索タスクにおいて優れた結果をもたらす。
既存の画像検索手法では、ターゲットデータ特有のバリエーションに適応するために、事前訓練されたネットワークを微調整または修正する必要がある。
本手法は, テスト時に強調した画像から抽出した特徴を, 強化学習を通じて学習したポリシーに則って集約することにより, 既製の特徴の分散を促進させる。
論文 参考訳(メタデータ) (2020-02-05T05:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。