論文の概要: Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models
- arxiv url: http://arxiv.org/abs/2602.09017v1
- Date: Mon, 09 Feb 2026 18:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.442961
- Title: Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models
- Title(参考訳): コンタクトアンカーのポリシー:強力なロボットの実用性モデルを作るコンタクトコンディショニング
- Authors: Zichen Jeff Cui, Omar Rayyan, Haritheja Etukuru, Bowen Tan, Zavier Andrianarivo, Zicheng Teng, Yihang Zhou, Krish Mehta, Nicholas Wojno, Kevin Yuanbo Wu, Manan H Anjaria, Ziyuan Wu, Manrong Mao, Guangxun Zhang, Binit Shah, Yejin Kim, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah,
- Abstract要約: Contact-Anchored Policiesは、空間における物理的な接触点で言語条件を置き換える。
CAPは3つの基本的な操作技術に基づいて,新しい環境や実施環境に一般化することを示す。
すべてのモデルチェックポイント、イテレーション、ハードウェア、シミュレーション、データセットがオープンソース化される。
- 参考スコア(独自算出の注目度): 19.175143015013308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/
- Abstract(参考訳): ロボット学習における一般的なパラダイムは、実行時に言語プロンプトを持つ環境、実施形態、タスクをまたいで一般化しようとするものである。
言語はしばしば、堅牢な操作に必要な具体的な物理的理解を導くには抽象的すぎる。
本研究では,空間上の物理的接触点に代えて,言語条件を置き換えたコンタクトアンコールポリシ(CAP)を提案する。
同時に、CAPはモノリシックなジェネリストポリシーではなく、モジュラーユーティリティモデルのライブラリとして構成する。
私たちは、軽量なシミュレーションベンチマークであるEgoGymを構築し、失敗モードを迅速に識別し、実際のデプロイ前にモデルとデータセットを洗練します。
シミュレーションにより接触条件を定め, 繰り返しを行うことにより, CAPは3つの基本的な操作スキルを駆使して, 新たな環境や具体化を一般化し, デモデータの23時間しか使用せず, ゼロショット評価において, 最先端のVLAを56%上回る性能を示した。
モデルチェックポイント、コードベース、ハードウェア、シミュレーション、データセットはすべてオープンソースになる。
プロジェクトページ: https://cap-policy.github.io/
関連論文リスト
- ChronoLLM: Customizing Language Models for Physics-Based Simulation Code Generation [8.554484252096913]
オープンおよびクローズドソースの大規模言語モデル(LLM)の精細化とカスタマイズのためのフレームワークを提案する。
我々は、PyChrono仮想実験を実行するスクリプトを生成する上で、AIの力を利用する。
論文 参考訳(メタデータ) (2025-08-19T16:12:51Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data [26.004807291215258]
言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。
基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-05-30T14:40:38Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。