論文の概要: Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2407.07868v1
- Date: Wed, 10 Jul 2024 17:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 15:33:18.747723
- Title: Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation
- Title(参考訳): グリーンスクリーンの強化によりロボットマニピュレーションにおけるシーンの一般化が可能に
- Authors: Eugene Teoh, Sumit Patidar, Xiao Ma, Stephen James,
- Abstract要約: 視覚に基づく新しい環境に対する操作ポリシーの一般化は、限られた探索の難しい領域のままである。
現在のプラクティスでは、ひとつの場所にデータを集め、このデータを使って模倣学習や強化学習のポリシーを訓練し、同じ場所にポリシーをデプロイする。
本稿では,主にグリーンスクリーンを特徴とする場所でデータを収集する手法を提案する。
背景テクスチャをグリーンスクリーン上にオーバーレイするためにクロマキーアルゴリズムを用いたグリーンスクリーン拡張(GreenAug)を導入する。
- 参考スコア(独自算出の注目度): 15.49265544549954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalising vision-based manipulation policies to novel environments remains a challenging area with limited exploration. Current practices involve collecting data in one location, training imitation learning or reinforcement learning policies with this data, and deploying the policy in the same location. However, this approach lacks scalability as it necessitates data collection in multiple locations for each task. This paper proposes a novel approach where data is collected in a location predominantly featuring green screens. We introduce Green-screen Augmentation (GreenAug), employing a chroma key algorithm to overlay background textures onto a green screen. Through extensive real-world empirical studies with over 850 training demonstrations and 8.2k evaluation episodes, we demonstrate that GreenAug surpasses no augmentation, standard computer vision augmentation, and prior generative augmentation methods in performance. While no algorithmic novelties are claimed, our paper advocates for a fundamental shift in data collection practices. We propose that real-world demonstrations in future research should utilise green screens, followed by the application of GreenAug. We believe GreenAug unlocks policy generalisation to visually distinct novel locations, addressing the current scene generalisation limitations in robot learning.
- Abstract(参考訳): 視覚に基づく新しい環境に対する操作ポリシーの一般化は、限られた探索の難しい領域のままである。
現在のプラクティスでは、ひとつの場所にデータを集め、このデータを使って模倣学習や強化学習のポリシーを訓練し、同じ場所にポリシーをデプロイする。
しかし、このアプローチはスケーラビリティに欠けており、各タスクに複数のロケーションでデータ収集を必要とする。
本稿では,主にグリーンスクリーンを特徴とする場所でデータを収集する手法を提案する。
背景テクスチャをグリーンスクリーン上にオーバーレイするためにクロマキーアルゴリズムを用いたグリーンスクリーン拡張(GreenAug)を導入する。
850以上のトレーニングデモと8.2kの評価エピソードによる広範囲な実世界の実証研究を通じて、GreenAugは、向上、標準的なコンピュータビジョンの増強、パフォーマンスにおける以前の生成拡張メソッドを超越していることを示した。
アルゴリズムのノベルティは主張されていないが、我々の論文はデータ収集の実践の根本的な変化を提唱している。
今後の研究における実世界の実証はグリーンスクリーンを活用すべきであり、続いてGreenAugを適用すべきである。
GreenAugは、ポリシーの一般化を視覚的に異なる新しい場所に開放し、ロボット学習における現在の場面の一般化の限界に対処する。
関連論文リスト
- Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames [15.800100875117312]
改善はロボット操作の中心であり、ほとんどのタスクは、オブジェクト上のタスク固有の領域とのインタラクションに単純化することができる。
そこで本稿では,これらの空き領域におけるテキストのテキスト化を適切に行う,空き領域中心のポリシー学習手法を提案する。
提案手法は,10個の実演から305個の実演で訓練された画像ベースのポリシーに準じて,行動クローンを用いて操作タスクを学習できることを実証する。
論文 参考訳(メタデータ) (2024-10-15T23:57:35Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a
Survey [0.07366405857677225]
深層強化学習におけるsim-to-realトランスファーの背景について述べる。
本稿では,ドメインランダム化,ドメイン適応,模倣学習,メタラーニング,知識蒸留の3つの主要な手法について概説する。
論文 参考訳(メタデータ) (2020-09-24T21:05:46Z) - Learning Task-Driven Control Policies via Information Bottlenecks [7.271970309320002]
本稿では,多機能な感覚機能を備えたロボットシステムのためのタスク駆動制御ポリシーを合成するための強化学習手法を提案する。
標準的な強化学習アルゴリズムは、通常、システムの状態全体とリッチなセンサー観測に制御アクションを密に結合するポリシーを生成する。
対照的に、我々が提示するアプローチは、制御アクションの計算に使用されるタスク駆動表現を作成することを学ぶ。
論文 参考訳(メタデータ) (2020-02-04T17:50:06Z) - An Exploration of Embodied Visual Exploration [97.21890864063872]
身体的コンピュータビジョンは、新しい非構造環境におけるロボットに対する知覚を考慮に入れている。
既存の視覚探索アルゴリズムの分類を提示し、それらをベンチマークするための標準フレームワークを作成する。
次に,提案フレームワークを用いた4つの最先端パラダイムの徹底的な実証的研究を行った。
論文 参考訳(メタデータ) (2020-01-07T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。