論文の概要: Zero-Shot Visual Generalization in Robot Manipulation
- arxiv url: http://arxiv.org/abs/2505.11719v1
- Date: Fri, 16 May 2025 22:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.802938
- Title: Zero-Shot Visual Generalization in Robot Manipulation
- Title(参考訳): ロボットマニピュレーションにおけるゼロショット視覚一般化
- Authors: Sumeet Batra, Gaurav Sukhatme,
- Abstract要約: 現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
- 参考スコア(独自算出の注目度): 0.13280779791485384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training vision-based manipulation policies that are robust across diverse visual environments remains an important and unresolved challenge in robot learning. Current approaches often sidestep the problem by relying on invariant representations such as point clouds and depth, or by brute-forcing generalization through visual domain randomization and/or large, visually diverse datasets. Disentangled representation learning - especially when combined with principles of associative memory - has recently shown promise in enabling vision-based reinforcement learning policies to be robust to visual distribution shifts. However, these techniques have largely been constrained to simpler benchmarks and toy environments. In this work, we scale disentangled representation learning and associative memory to more visually and dynamically complex manipulation tasks and demonstrate zero-shot adaptability to visual perturbations in both simulation and on real hardware. We further extend this approach to imitation learning, specifically Diffusion Policy, and empirically show significant gains in visual generalization compared to state-of-the-art imitation learning methods. Finally, we introduce a novel technique adapted from the model equivariance literature that transforms any trained neural network policy into one invariant to 2D planar rotations, making our policy not only visually robust but also resilient to certain camera perturbations. We believe that this work marks a significant step towards manipulation policies that are not only adaptable out of the box, but also robust to the complexities and dynamical nature of real-world deployment. Supplementary videos are available at https://sites.google.com/view/vis-gen-robotics/home.
- Abstract(参考訳): 多様な視覚環境に対して堅牢な視覚ベースの操作ポリシーを訓練することは、ロボット学習において重要な課題であり、未解決の課題である。
現在のアプローチは、点雲や深度のような不変表現に依存することや、視覚領域のランダム化や大規模で視覚的に多様なデータセットによるブルート強制的な一般化によって問題を回避していることが多い。
分散表現学習(特に連想記憶の原則と組み合わせた場合)は、視覚に基づく強化学習ポリシーを視覚分布シフトに対して堅牢にすることの可能性を最近示した。
しかし、これらの技術はより単純なベンチマークやおもちゃの環境に大きく制約されている。
本研究では,非交叉表現学習と連想メモリを視覚的かつ動的に複雑な操作タスクに拡張し,シミュレーションおよび実ハードウェア上での視覚的摂動に対するゼロショット適応性を実証する。
我々はさらに、この手法を模倣学習、特に拡散政策に拡張し、最先端の模倣学習法と比較して、視覚一般化において顕著な利益を実証的に示す。
最後に、トレーニングされたニューラルネットワークポリシーを1つの不変な2次元平面回転に変換するモデル等分散文献を応用した新しい手法を導入し、視覚的に頑健なだけでなく、特定のカメラの摂動にも耐性を持たせる。
この作業は、最初から適応できるだけでなく、現実のデプロイメントの複雑さや動的性質にも堅牢なポリシーを運用するための重要なステップだと考えています。
追加ビデオはhttps://sites.google.com/view/vis-gen-robotics/home.comで公開されている。
関連論文リスト
- Object-Centric Representations Improve Policy Generalization in Robot Manipulation [43.18545365968973]
我々は,オブジェクト中心表現(OCR)を,視覚入力を完了したエンティティの集合に分割する構造的な代替品として検討する。
我々は、シミュレーションおよび実世界の操作タスクのスイート全体にわたって、視覚的エンコーダ中心、グローバル、そして密集したメソッドをベンチマークする。
この結果から,OCRに基づく政策は,タスク固有の事前訓練を必要とせずに,一般化設定において,密接かつグローバルな表現よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2025-05-16T07:06:37Z) - View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。
本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。
多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文 参考訳(メタデータ) (2024-09-05T16:39:21Z) - CORN: Contact-based Object Representation for Nonprehensile Manipulation of General Unseen Objects [1.3299507495084417]
非包括的操作は、野生ではあまりに薄く、大きく、または、そうでなければ不快な物体を操作するために不可欠である。
そこで本研究では,接触型オブジェクト表現と事前学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-16T01:47:53Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。
本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。
シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。