論文の概要: Visual Backtracking Teleoperation: A Data Collection Protocol for
Offline Image-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.02343v1
- Date: Wed, 5 Oct 2022 15:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 15:21:41.369543
- Title: Visual Backtracking Teleoperation: A Data Collection Protocol for
Offline Image-Based Reinforcement Learning
- Title(参考訳): visual backtracking teleoperation: オフライン画像ベース強化学習のためのデータ収集プロトコル
- Authors: David Brandfonbrener, Stephen Tu, Avi Singh, Stefan Welker, Chad
Boodoo, Nikolai Matni, Jake Varley
- Abstract要約: 我々は、視覚的に類似した障害、回復、成功のデータセットを意図的に収集する新しいプロトコルを開発する。
VBTデータにおけるオフライン強化学習は,実演データの標準的クローン化を13%向上させることがわかった。
- 参考スコア(独自算出の注目度): 13.759422180148716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider how to most efficiently leverage teleoperator time to collect
data for learning robust image-based value functions and policies for sparse
reward robotic tasks. To accomplish this goal, we modify the process of data
collection to include more than just successful demonstrations of the desired
task. Instead we develop a novel protocol that we call Visual Backtracking
Teleoperation (VBT), which deliberately collects a dataset of visually similar
failures, recoveries, and successes. VBT data collection is particularly useful
for efficiently learning accurate value functions from small datasets of
image-based observations. We demonstrate VBT on a real robot to perform
continuous control from image observations for the deformable manipulation task
of T-shirt grasping. We find that by adjusting the data collection process we
improve the quality of both the learned value functions and policies over a
variety of baseline methods for data collection. Specifically, we find that
offline reinforcement learning on VBT data outperforms standard behavior
cloning on successful demonstration data by 13% when both methods are given
equal-sized datasets of 60 minutes of data from the real robot.
- Abstract(参考訳): 我々は,遠隔操作時間を最大限に活用し,頑健な画像に基づく価値関数の学習のためのデータ収集と,報酬ロボットタスクの分散のためのポリシーを検討する。
この目標を達成するために、私たちはデータ収集のプロセスを変更し、目的とするタスクのデモ以上のものを含むようにします。
代わりに、視覚的に類似した障害、回復、成功のデータセットを意図的に収集するVisual Backtracking Teleoperation (VBT)と呼ばれる新しいプロトコルを開発しました。
VBTデータ収集は、画像ベースの小さなデータセットから正確な値関数を効率的に学習するのに特に有用である。
tシャツ把持の変形可能な操作タスクのための画像観察から連続制御を行う実ロボットのvbtを実演する。
データ収集のプロセスを調整することで、学習した値関数とポリシーの両方の品質を、データ収集のためのさまざまなベースラインメソッドで改善できることが分かりました。
特に,実ロボットから60分分の等サイズのデータセットを与えられた場合,vbtデータのオフライン強化学習は,実演データ上での標準的な動作クローンを13%上回ることがわかった。
関連論文リスト
- DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。
オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文 参考訳(メタデータ) (2024-09-26T23:07:01Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - LEAVES: Learning Views for Time-Series Data in Contrastive Learning [16.84326709739788]
時系列データのための学習ビュー(LEAVES)という,対照的な学習における時系列データのビュー生成を自動化するモジュールを提案する。
提案手法は, 合理的な視点の探索に有効であり, ベースラインよりも下流タスクを効果的に行う。
論文 参考訳(メタデータ) (2022-10-13T20:18:22Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Efficient Self-Supervised Data Collection for Offline Robot Learning [17.461103383630853]
ロボット強化学習の実用的なアプローチは、まずリアルまたはシミュレートされたロボット相互作用データの大規模なバッチを収集することです。
我々は,新しい観測結果にデータ収集を積極的に焦点をあてる,簡便な目標条件強化学習法を開発した。
論文 参考訳(メタデータ) (2021-05-10T18:42:58Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Learning Test-time Augmentation for Content-based Image Retrieval [42.188013259368766]
オフザシェルフ畳み込みニューラルネットワークは、多くの画像検索タスクにおいて優れた結果をもたらす。
既存の画像検索手法では、ターゲットデータ特有のバリエーションに適応するために、事前訓練されたネットワークを微調整または修正する必要がある。
本手法は, テスト時に強調した画像から抽出した特徴を, 強化学習を通じて学習したポリシーに則って集約することにより, 既製の特徴の分散を促進させる。
論文 参考訳(メタデータ) (2020-02-05T05:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。