論文の概要: PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies
- arxiv url: http://arxiv.org/abs/2509.18282v1
- Date: Mon, 22 Sep 2025 18:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.516234
- Title: PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies
- Title(参考訳): PEEK:ロボット操作ポリシーのゼロショット一般化のためのガイドと最小画像表現
- Authors: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li,
- Abstract要約: 本稿では,PEEK(Policy-Agnostic extract of Essential Keypoints)を提案する。
これらのアノテーションはロボットの観察に直接オーバーレイされるので、表現はポリシーに依存しず、アーキテクチャ全体にわたって転送可能である。
実世界の評価では、PEEKはゼロショットの一般化を継続的に強化し、シミュレーションでのみ訓練された3Dポリシーの41.4倍の現実世界の改善を達成している。
- 参考スコア(独自算出の注目度): 32.6823407205603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying what actions to take, and 2. task-relevant masks indicating where to focus. These annotations are directly overlaid onto robot observations, making the representation policy-agnostic and transferable across architectures. To enable scalable training, we introduce an automatic annotation pipeline, generating labeled data across 20+ robot datasets spanning 9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot generalization, including a 41.4x real-world improvement for a 3D policy trained only in simulation, and 2-3.5x gains for both large VLAs and small manipulation policies. By letting VLMs absorb semantic and visual complexity, PEEK equips manipulation policies with the minimal cues they need--where, what, and how. Website at https://peek-robot.github.io/.
- Abstract(参考訳): ロボット操作ポリシーは、どこに出席すべきか、どのアクションをするか、どのように実行するのかを同時に学ばなければならないため、一般化に失敗することが多い。
我々は、視覚言語モデル(VLM)にオフロード可能な場所と場所に関する高レベルな推論は、行動の仕方に特化するためのポリシーを残している、と論じる。
本稿では,PEEK(Policy-Agnostic extract of Essential Keypoints)について述べる。
1. 取るべきアクションを規定するエンドエフェクタパス
2. フォーカスの場所を示すタスク関連マスク。
これらのアノテーションはロボットの観察に直接オーバーレイされるので、表現はポリシーに依存しず、アーキテクチャ全体にわたって転送可能である。
スケーラブルなトレーニングを実現するために,9つのエボディメントにまたがる20以上のロボットデータセットにラベル付きデータを生成する,自動アノテーションパイプラインを導入する。
実世界の評価では、PEEKはゼロショットの一般化を継続的に強化し、シミュレーションでのみ訓練された3Dポリシーの41.4倍の改善と、大きなVLAと小さな操作ポリシーの2-3.5倍のゲインを含んでいる。
VLMがセマンティックな複雑さと視覚的な複雑さを吸収できるようにすることで、PEEKは必要な最小限のキュー、場所、場所、方法の操作ポリシーを装備する。
ウェブサイト https://peek-robot.github.io/.com
関連論文リスト
- ArticuBot: Learning Universal Articulated Object Manipulation Policy via Large Scale Simulation [22.43711565969091]
Articubot(アルティキュボット)は、現実世界で目に見えないオブジェクトの多様なカテゴリをオープンするポリシーを学ぶシステムである。
学習したポリシーは、3つの異なるリアルロボット設定にゼロショット転送可能であることを示す。
論文 参考訳(メタデータ) (2025-03-04T22:51:50Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - P3-PO: Prescriptive Point Priors for Visuo-Spatial Generalization of Robot Policies [19.12762500264209]
Prescriptive Point Priors for Policies(P3-PO)は、環境のユニークな状態表現を構築する新しいフレームワークである。
P3-POは、新しいオブジェクトインスタンスとより散らかった環境のために、タスク全体で58%と80%のゲインを示す。
論文 参考訳(メタデータ) (2024-12-09T18:59:42Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Grasp Anything: Combining Teacher-Augmented Policy Gradient Learning with Instance Segmentation to Grasp Arbitrary Objects [18.342569823885864]
TAPG(Teacher-Augmented Policy Gradient)は、強化学習と政策蒸留を統括する新しい2段階学習フレームワークである。
TAPGは、オブジェクトセグメンテーションに基づいて、誘導的かつ適応的でありながら、センセータポリシーの学習を促進する。
トレーニングされたポリシーは、シミュレーションにおける散らかったシナリオや、人間の理解可能なプロンプトに基づいて現実世界から、多種多様なオブジェクトを順応的に把握する。
論文 参考訳(メタデータ) (2024-03-15T10:48:16Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。