論文の概要: Multi-Camera View Scaling for Data-Efficient Robot Imitation Learning
- arxiv url: http://arxiv.org/abs/2604.00557v1
- Date: Wed, 01 Apr 2026 07:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.88414
- Title: Multi-Camera View Scaling for Data-Efficient Robot Imitation Learning
- Title(参考訳): データ効率の良いロボット模倣学習のためのマルチカメラビュースケーリング
- Authors: Yichen Xie, Yixiao Wang, Shuqi Zhao, Cheng-En Wu, Masayoshi Tomizuka, Jianwen Xie, Hao-Shu Fang,
- Abstract要約: 複数の同期カメラパースペクティブを使用して、各専門家軌跡から擬似演示を生成する。
シミュレーションと実世界の操作タスクの実験は、データ効率と一般化の著しい向上を示している。
以上の結果から,カメラビューのスケーリングは,模倣学習のための実用的でスケーラブルなソリューションであることが示唆された。
- 参考スコア(独自算出の注目度): 57.88781687419521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generalization ability of imitation learning policies for robotic manipulation is fundamentally constrained by the diversity of expert demonstrations, while collecting demonstrations across varied environments is costly and difficult in practice. In this paper, we propose a practical framework that exploits inherent scene diversity without additional human effort by scaling camera views during demonstration collection. Instead of acquiring more trajectories, multiple synchronized camera perspectives are used to generate pseudo-demonstrations from each expert trajectory, which enriches the training distribution and improves viewpoint invariance in visual representations. We analyze how different action spaces interact with view scaling and show that camera-space representations further enhance diversity. In addition, we introduce a multiview action aggregation method that allows single-view policies to benefit from multiple cameras during deployment. Extensive experiments in simulation and real-world manipulation tasks demonstrate significant gains in data efficiency and generalization compared to single-view baselines. Our results suggest that scaling camera views provides a practical and scalable solution for imitation learning, which requires minimal additional hardware setup and integrates seamlessly with existing imitation learning algorithms. The website of our project is https://yichen928.github.io/robot_multiview.
- Abstract(参考訳): ロボット操作のための模倣学習ポリシーの一般化能力は、専門家によるデモンストレーションの多様性によって根本的に制限される一方、様々な環境にまたがるデモンストレーションの収集はコストがかかり、実際は困難である。
本稿では,デモコレクション中にカメラビューを拡大することにより,人間の努力を伴わずにシーンの多様性を生かした実践的フレームワークを提案する。
より多くのトラジェクトリを取得する代わりに、複数の同期カメラパースペクティブを使用して、各専門家のトラジェクトリから擬似デモンストレーションを生成し、トレーニング分布を充実させ、視覚表現における視点不変性を改善する。
我々は、異なるアクション空間がビュースケーリングとどのように相互作用するかを分析し、カメラ空間の表現が多様性をさらに高めることを示す。
さらに,マルチビューアクションアグリゲーション方式を導入し,単一ビューポリシーをデプロイ中に複数のカメラから恩恵を受けられるようにした。
シミュレーションや実世界の操作タスクにおける大規模な実験は、シングルビューベースラインに比べてデータ効率と一般化が著しく向上したことを示している。
以上の結果から,カメラビューのスケーリングは,ハードウェアのセットアップを最小限に抑え,既存の模倣学習アルゴリズムとシームレスに統合する,実用的でスケーラブルな模倣学習ソリューションを提供する可能性が示唆された。
プロジェクトのWebサイトはhttps://yichen928.github.io/robot_multiviewです。
関連論文リスト
- Beyond Viewpoint Generalization: What Multi-View Demonstrations Offer and How to Synthesize Them for Robot Manipulation? [28.177241923955435]
マルチビューデモは、単一ビューポリシーの成功と一般化を継続的に改善する。
メカニスティック解析は、多視点学習が操作関連視覚表現を促進することを示している。
モノクラー入力から新規ビュー映像を合成するジオメトリ対応の自己教師型フレームワークであるRoboNVSを提案する。
論文 参考訳(メタデータ) (2026-03-23T15:01:15Z) - Data Analogies Enable Efficient Cross-Embodiment Transfer [72.88252238231269]
汎用ロボットポリシーは、さまざまなロボット、シーン、視点で収集されたデモに基づいて訓練される。
ロボットのセットアップ間での移動を可能にする上で、最も有用なデモデータの種類は何か?
我々の模擬実験は、視点のような知覚的な変化は幅広い多様性から最も恩恵を受けるが、形態学的な変化は非構造的な多様性から非常に恩恵を受けないことを示している。
論文 参考訳(メタデータ) (2026-03-06T16:42:46Z) - Visual-Policy Learning through Multi-Camera View to Single-Camera View
Knowledge Distillation for Robot Manipulation Tasks [4.820787231200527]
本稿では,ロボット操作タスクのための視覚に基づく強化学習(RL)アルゴリズムの一般化性能を高めるための新しい手法を提案する。
提案手法は,複数のカメラ視点で訓練された教師の政策が,一台のカメラ視点から学習する際の生徒の方針を導出する知識蒸留と呼ばれる手法を活用することである。
その結果、単一視点の視覚的学生政策は、単一視点の政策だけでは不可能な課題を把握し、持ち上げることをうまく学べることを示した。
論文 参考訳(メタデータ) (2023-03-13T11:42:38Z) - Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文 参考訳(メタデータ) (2023-02-05T15:37:02Z) - Seeing All the Angles: Learning Multiview Manipulation Policies for
Contact-Rich Tasks from Demonstrations [7.51557557629519]
成功したマルチビューポリシは,モバイル操作プラットフォームにデプロイすることが可能だ。
様々な視点からデータを収集することで、模倣学習によってマルチビューのポリシーを見いだせることを示す。
マルチビューデータからの学習は,同一量の固定ビューデータによる学習と比較して,固定ビュータスクのパフォーマンスに対するペナルティがほとんどないことを示した。
論文 参考訳(メタデータ) (2021-04-28T17:43:29Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。