論文の概要: Visual-Policy Learning through Multi-Camera View to Single-Camera View
Knowledge Distillation for Robot Manipulation Tasks
- arxiv url: http://arxiv.org/abs/2303.07026v2
- Date: Sat, 2 Dec 2023 06:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 01:27:49.995135
- Title: Visual-Policy Learning through Multi-Camera View to Single-Camera View
Knowledge Distillation for Robot Manipulation Tasks
- Title(参考訳): ロボットマニピュレーションタスクのためのマルチカメラビューからシングルカメラビュー知識蒸留への視覚ポリティクス学習
- Authors: Cihan Acar, Kuluhan Binici, Alp Tekirda\u{g} and Yan Wu
- Abstract要約: 本稿では,ロボット操作タスクのための視覚に基づく強化学習(RL)アルゴリズムの一般化性能を高めるための新しい手法を提案する。
提案手法は,複数のカメラ視点で訓練された教師の政策が,一台のカメラ視点から学習する際の生徒の方針を導出する知識蒸留と呼ばれる手法を活用することである。
その結果、単一視点の視覚的学生政策は、単一視点の政策だけでは不可能な課題を把握し、持ち上げることをうまく学べることを示した。
- 参考スコア(独自算出の注目度): 4.820787231200527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of multi-camera views simultaneously has been shown to improve the
generalization capabilities and performance of visual policies. However, the
hardware cost and design constraints in real-world scenarios can potentially
make it challenging to use multiple cameras. In this study, we present a novel
approach to enhance the generalization performance of vision-based
Reinforcement Learning (RL) algorithms for robotic manipulation tasks. Our
proposed method involves utilizing a technique known as knowledge distillation,
in which a pre-trained ``teacher'' policy trained with multiple camera
viewpoints guides a ``student'' policy in learning from a single camera
viewpoint. To enhance the student policy's robustness against camera location
perturbations, it is trained using data augmentation and extreme viewpoint
changes. As a result, the student policy learns robust visual features that
allow it to locate the object of interest accurately and consistently,
regardless of the camera viewpoint. The efficacy and efficiency of the proposed
method were evaluated both in simulation and real-world environments. The
results demonstrate that the single-view visual student policy can successfully
learn to grasp and lift a challenging object, which was not possible with a
single-view policy alone. Furthermore, the student policy demonstrates
zero-shot transfer capability, where it can successfully grasp and lift objects
in real-world scenarios for unseen visual configurations.
- Abstract(参考訳): マルチカメラビューを同時に使用することで、視覚ポリシーの一般化能力と性能が向上することが示されている。
しかし、現実のシナリオにおけるハードウェアコストと設計上の制約は、複数のカメラの使用を難しくする可能性がある。
本研究では,ロボット操作タスクのための視覚に基づく強化学習(RL)アルゴリズムの一般化性能を高める新しい手法を提案する。
提案手法は,複数のカメラ視点で訓練された「教師」政策が,単一カメラ視点から学習する「学生」政策を導く「知識蒸留」と呼ばれる手法を利用する。
カメラ位置摂動に対する学生政策の堅牢性を高めるため、データ拡張と極端な視点変化を用いて訓練を行う。
その結果、学生ポリシーは、カメラの視点に関係なく、興味のある対象を正確にかつ一貫して見つけることができる堅牢な視覚特徴を学習する。
提案手法の有効性と効率をシミュレーションと実環境の両方で評価した。
その結果、単一視点の視覚的学生政策は、単一視点の政策だけでは不可能な課題を把握し、持ち上げることをうまく学べることを示した。
さらに、学生の方針はゼロショット転送能力を示し、見えない視覚構成のための現実シナリオにおけるオブジェクトの把握と持ち上げを成功させる。
関連論文リスト
- View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。
本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。
多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文 参考訳(メタデータ) (2024-09-05T16:39:21Z) - Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos [81.99559944822752]
我々は人間のビデオから視覚に基づくポリシー学習を改善するためにViViDexを提案する。
最初は強化学習と軌道誘導報酬を使って、各ビデオに対する州ベースのポリシーを訓練する。
次に、州ベースのポリシーから成功したエピソードをロールアウトし、特権情報を使用しずに統一された視覚ポリシーをトレーニングします。
論文 参考訳(メタデータ) (2024-04-24T07:58:28Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - Contrastive Learning for Enhancing Robust Scene Transfer in Vision-based
Agile Flight [21.728935597793473]
本研究では、ゼロショットシーン転送と実世界展開を可能にする視覚表現学習のための適応型マルチペアコントラスト学習戦略を提案する。
私たちは、アジャイルでビジョンベースの4倍体飛行のタスクに対して、私たちのアプローチのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2023-09-18T15:25:59Z) - The Treachery of Images: Bayesian Scene Keypoints for Deep Policy
Learning in Robotic Manipulation [28.30126109684119]
スケール不変なキーポイントを時間とともに追跡するベイズ的手法であるBASKを提案する。
我々は,手首カメラの観察から多目的ロボット操作の課題を学習するために,本手法を用いた。
論文 参考訳(メタデータ) (2023-05-08T14:05:38Z) - Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文 参考訳(メタデータ) (2023-02-05T15:37:02Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - Seeing All the Angles: Learning Multiview Manipulation Policies for
Contact-Rich Tasks from Demonstrations [7.51557557629519]
成功したマルチビューポリシは,モバイル操作プラットフォームにデプロイすることが可能だ。
様々な視点からデータを収集することで、模倣学習によってマルチビューのポリシーを見いだせることを示す。
マルチビューデータからの学習は,同一量の固定ビューデータによる学習と比較して,固定ビュータスクのパフォーマンスに対するペナルティがほとんどないことを示した。
論文 参考訳(メタデータ) (2021-04-28T17:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。