論文の概要: View-Invariant Policy Learning via Zero-Shot Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2409.03685v1
- Date: Thu, 5 Sep 2024 16:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:53:43.164862
- Title: View-Invariant Policy Learning via Zero-Shot Novel View Synthesis
- Title(参考訳): ゼロショット新規ビュー合成によるビュー不変政策学習
- Authors: Stephen Tian, Blake Wulfe, Kyle Sargent, Katherine Liu, Sergey Zakharov, Vitor Guizilini, Jiajun Wu,
- Abstract要約: 本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。
本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。
多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
- 参考スコア(独自算出の注目度): 26.231630397802785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale visuomotor policy learning is a promising approach toward developing generalizable manipulation systems. Yet, policies that can be deployed on diverse embodiments, environments, and observational modalities remain elusive. In this work, we investigate how knowledge from large-scale visual data of the world may be used to address one axis of variation for generalizable manipulation: observational viewpoint. Specifically, we study single-image novel view synthesis models, which learn 3D-aware scene-level priors by rendering images of the same scene from alternate camera viewpoints given a single input image. For practical application to diverse robotic data, these models must operate zero-shot, performing view synthesis on unseen tasks and environments. We empirically analyze view synthesis models within a simple data-augmentation scheme that we call View Synthesis Augmentation (VISTA) to understand their capabilities for learning viewpoint-invariant policies from single-viewpoint demonstration data. Upon evaluating the robustness of policies trained with our method to out-of-distribution camera viewpoints, we find that they outperform baselines in both simulated and real-world manipulation tasks. Videos and additional visualizations are available at https://s-tian.github.io/projects/vista.
- Abstract(参考訳): 大規模ビズモータ政策学習は、一般化可能な操作システムを開発するための有望なアプローチである。
しかし, 多様な実施形態, 環境, 観察的モダリティに展開可能な政策はいまだ解明されていない。
本研究では,世界の大規模視覚データからの知識が,一般化可能な操作のための一軸の変動にどのように対応できるかを考察する。
具体的には、単一入力画像から同一シーンの画像をレンダリングすることで、3D認識されたシーンレベルを学習する単一画像の新規ビュー合成モデルについて検討する。
多様なロボットデータに実用的に適用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を実行する必要がある。
我々は、ビュー合成拡張(VISTA)と呼ばれる単純なデータ拡張スキームにおいて、ビュー合成モデルを経験的に分析し、ビューの表示データから視点不変ポリシーを学習する能力を理解する。
提案手法を用いて訓練したカメラ視点外におけるロバスト性を評価することにより,シミュレーションおよび実世界の操作作業において,ベースラインよりも優れていることがわかった。
ビデオと追加の視覚化はhttps://s-tian.github.io/projects/vista.orgで公開されている。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Visual-Policy Learning through Multi-Camera View to Single-Camera View
Knowledge Distillation for Robot Manipulation Tasks [4.820787231200527]
本稿では,ロボット操作タスクのための視覚に基づく強化学習(RL)アルゴリズムの一般化性能を高めるための新しい手法を提案する。
提案手法は,複数のカメラ視点で訓練された教師の政策が,一台のカメラ視点から学習する際の生徒の方針を導出する知識蒸留と呼ばれる手法を活用することである。
その結果、単一視点の視覚的学生政策は、単一視点の政策だけでは不可能な課題を把握し、持ち上げることをうまく学べることを示した。
論文 参考訳(メタデータ) (2023-03-13T11:42:38Z) - Novel View Synthesis from a Single Image via Unsupervised learning [27.639536023956122]
本研究では,そのような画素変換を単一ソース視点から学習するための教師なしネットワークを提案する。
学習した変換により、未知のポーズの単一のソース視点画像から新しいビューを合成することができる。
論文 参考訳(メタデータ) (2021-10-29T06:32:49Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Seeing All the Angles: Learning Multiview Manipulation Policies for
Contact-Rich Tasks from Demonstrations [7.51557557629519]
成功したマルチビューポリシは,モバイル操作プラットフォームにデプロイすることが可能だ。
様々な視点からデータを収集することで、模倣学習によってマルチビューのポリシーを見いだせることを示す。
マルチビューデータからの学習は,同一量の固定ビューデータによる学習と比較して,固定ビュータスクのパフォーマンスに対するペナルティがほとんどないことを示した。
論文 参考訳(メタデータ) (2021-04-28T17:43:29Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。