論文の概要: UniCoD: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning
- arxiv url: http://arxiv.org/abs/2510.10642v1
- Date: Sun, 12 Oct 2025 14:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.93709
- Title: UniCoD: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning
- Title(参考訳): UniCoD: 統一された連続的かつ離散的な表現学習によるロボットポリシーの強化
- Authors: Jianke Zhang, Yucheng Hu, Yanjiang Guo, Xiaoyu Chen, Yichen Liu, Wenna Chen, Chaochao Lu, Jianyu Chen,
- Abstract要約: オープンエンド環境で多様なタスクを処理できる汎用的なロボットポリシーを構築することは、ロボット工学における中心的な課題である。
大規模な事前学習から知識を活用するために、以前の研究は一般的に視覚言語理解モデル(VLM)または生成モデルの上に一般的なポリシーを構築してきた。
最近の生成と理解の統一モデルは、大規模な事前学習を通じて、理解と生成の両方において強力な能力を示している。
そこで,UniCoDを導入し,100万以上のインターネット規模の操作映像を事前学習することで,高次元視覚特徴を動的にモデル化する機能を実現する。
- 参考スコア(独自算出の注目度): 22.84748754972181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building generalist robot policies that can handle diverse tasks in open-ended environments is a central challenge in robotics. To leverage knowledge from large-scale pretraining, prior work has typically built generalist policies either on top of vision-language understanding models (VLMs) or generative models. However, both semantic understanding from vision-language pretraining and visual dynamics modeling from visual-generation pretraining are crucial for embodied robots. Recent unified models of generation and understanding have demonstrated strong capabilities in both comprehension and generation through large-scale pretraining. We posit that robotic policy learning can likewise benefit from the combined strengths of understanding, planning and continuous future representation learning. Building on this insight, we introduce UniCoD, which acquires the ability to dynamically model high-dimensional visual features through pretraining on over 1M internet-scale instructional manipulation videos. Subsequently, UniCoD is fine-tuned on data collected from the robot embodiment, enabling the learning of mappings from predictive representations to action tokens. Extensive experiments show our approach consistently outperforms baseline methods in terms of 9\% and 12\% across simulation environments and real-world out-of-distribution tasks.
- Abstract(参考訳): オープンエンド環境で多様なタスクを処理できる汎用的なロボットポリシーを構築することは、ロボット工学における中心的な課題である。
大規模な事前学習から知識を活用するために、以前の研究は一般的に視覚言語理解モデル(VLM)または生成モデルの上に一般的なポリシーを構築してきた。
しかし、視覚言語による事前学習からの意味理解と、視覚世代による事前学習からの視覚力学モデリングの両方が、具体化されたロボットにとって重要である。
最近の生成と理解の統一モデルは、大規模な事前学習を通じて、理解と生成の両方において強力な能力を示している。
ロボットポリシー学習は、理解、計画、継続的な未来表現学習の強みを組み合わせることで、同様に恩恵を受けることができると仮定する。
この知見に基づいて,UniCoDを導入し,100万以上のインターネット規模の指導操作ビデオの事前学習により,高次元視覚特徴を動的にモデル化する能力を得た。
その後、UniCoDはロボットエンボディメントから収集されたデータに基づいて微調整され、予測表現からアクショントークンへのマッピングの学習を可能にする。
大規模な実験により,本手法はシミュレーション環境や実世界のアウト・オブ・ディストリビューションタスクにおいて,ベースライン手法の9.5%,12.%で一貫して優れていた。
関連論文リスト
- Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations [26.678553477485362]
本稿では,ロボット操作に適応しながら,事前学習した特徴をよりよく保存するフレームワークを提案する。
提案手法では, (i) 事前学習された特徴を保持するために, 凍結したビジョンを持つデュアルエンコーダ設計と, (ii) モデルの事前学習領域に整合した文字列に連続的なアクションを投入する文字列ベースのアクショントークン化器, (iii) ロボットのデモンストレーションと,空間的推論とアプライアンスを強調する視覚言語データセットを組み合わせた協調学習戦略の3つのコンポーネントを導入している。
論文 参考訳(メタデータ) (2025-09-14T20:08:56Z) - Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations [19.45821593625599]
ビデオ拡散モデル(VDM)は、将来のフレームを予測し、物理的な世界を強く理解する能力を示す。
本稿では,VDM内の将来予測表現を条件とした暗黙的逆ダイナミクスモデル(VPP)を学習するビデオ予測ポリシーを提案する。
VPPはCalvin ABC-Dの一般化ベンチマークを18.6%改善した。
論文 参考訳(メタデータ) (2024-12-19T12:48:40Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。
モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。
我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文 参考訳(メタデータ) (2024-09-21T08:45:16Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。