論文の概要: Building Explicit World Model for Zero-Shot Open-World Object Manipulation
- arxiv url: http://arxiv.org/abs/2603.13825v1
- Date: Sat, 14 Mar 2026 08:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.790768
- Title: Building Explicit World Model for Zero-Shot Open-World Object Manipulation
- Title(参考訳): ゼロショットオープンワールドオブジェクト操作のための明示的世界モデルの構築
- Authors: Xiaotong Li, Gang Chen, Javier Alonso-Mora,
- Abstract要約: オープンワールド操作のための明示的世界モデルベースのフレームワークを提案する。
このフレームワークは、オープンセットの認識、デジタル双対再構築、インタラクション戦略のサンプリングと評価を統合している。
提案するフレームワークは,タスク固有の動作デモを伴わずに,複数のオープンセット操作タスクを実行できる。
- 参考スコア(独自算出の注目度): 30.004607772330473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world object manipulation remains a fundamental challenge in robotics. While Vision-Language-Action (VLA) models have demonstrated promising results, they rely heavily on large-scale robot action demonstrations, which are costly to collect and can hinder out-of-distribution generalization. In this paper, we propose an explicit-world-model-based framework for open-world manipulation that achieves zero-shot generalization by constructing a physically grounded digital twin of the environment. The framework integrates open-set perception, digital-twin reconstruction, sampling and evaluation of interaction strategies. By constructing a digital twin of the environment, our approach efficiently explores and evaluates manipulation strategies in physic-enabled simulator and reliably deploys the chosen strategy to the real world. Experimentally, the proposed framework is able to perform multiple open-set manipulation tasks without any task-specific action demonstrations, proving strong zero-shot generalization on both the task and object levels. Project Page: https://bojack-bj.github.io/projects/thesis/
- Abstract(参考訳): オープンワールドのオブジェクト操作は、ロボティクスにおける根本的な課題である。
Vision-Language-Action(VLA)モデルは有望な結果を示しているが、それらは大規模なロボットアクションのデモに大きく依存している。
本稿では,環境の物理的に接地したディジタル双対を構築し,ゼロショットの一般化を実現するオープンワールド操作のための明示的世界モデルベースのフレームワークを提案する。
このフレームワークは、オープンセットの認識、デジタル双対再構築、インタラクション戦略のサンプリングと評価を統合している。
環境のディジタル双対を構築することにより,物理対応シミュレータにおける操作戦略を効率的に探索し,評価し,選択した戦略を現実世界に確実に展開する。
提案したフレームワークは,タスク固有の動作デモを一切行わずに複数のオープンセット操作タスクを実行することができ,タスクレベルとオブジェクトレベルの両方において強力なゼロショット一般化を実現することができる。
Project Page: https://bojack-bj.github.io/ projects/thesis/
関連論文リスト
- RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。
RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。
我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T05:55:39Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文 参考訳(メタデータ) (2023-04-26T20:56:40Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。