論文の概要: Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2508.05635v1
- Date: Thu, 07 Aug 2025 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.993336
- Title: Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
- Title(参考訳): Genie Envisioner: ロボット操作のための世界統一プラットフォーム
- Authors: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren,
- Abstract要約: 我々は,ロボット操作のための統一世界基盤プラットフォームであるGenie Envisioner(GE)を紹介する。
GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワークに統合する。
- 参考スコア(独自算出の注目度): 65.30763239365928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajectories through a lightweight, flow-matching decoder, enabling precise and generalizable policy inference across diverse embodiments with minimal supervision. To support scalable evaluation and training, GE-Sim serves as an action-conditioned neural simulator, producing high-fidelity rollouts for closed-loop policy development. The platform is further equipped with EWMBench, a standardized benchmark suite measuring visual fidelity, physical consistency, and instruction-action alignment. Together, these components establish Genie Envisioner as a scalable and practical foundation for instruction-driven, general-purpose embodied intelligence. All code, models, and benchmarks will be released publicly.
- Abstract(参考訳): 我々は、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワークに統合した、ロボット操作のための統一世界基盤プラットフォームであるGenie Envisioner(GE)を紹介する。
GE-Baseは大規模かつ命令条件付きビデオ拡散モデルであり、構造化された潜在空間における実世界のロボットインタラクションの空間的、時間的、意味的ダイナミクスをキャプチャする。
この基盤の上に構築されたGE-Actは、軽量なフローマッチングデコーダを通じて、潜在表現を実行可能なアクショントラジェクトリにマッピングし、最小限の監督下で様々な実施形態をまたいだ正確な、一般化可能なポリシー推論を可能にする。
スケーラブルな評価とトレーニングをサポートするために、GE-Simはアクション条件付きニューラルネットワークシミュレータとして機能し、クローズループポリシー開発のための高忠実なロールアウトを生成する。
EWMBenchは、視覚的忠実度、物理的整合性、命令・アクションのアライメントを測定する標準ベンチマークスイートである。
これらのコンポーネントは共に、Genie Envisionerを、命令駆動で汎用的なインテリジェンスのためのスケーラブルで実用的な基盤として確立している。
すべてのコード、モデル、ベンチマークが公開されます。
関連論文リスト
- UNO: Unified Self-Supervised Monocular Odometry for Platform-Agnostic Deployment [22.92093036869778]
多様な環境にまたがるロバストかつ姿勢推定を可能にする統合ビジュアル・オドメトリー・フレームワークであるUNOを提案する。
われわれのアプローチは、自動運転車、ドローン、移動ロボット、ハンドヘルドデバイスなど、さまざまな現実のシナリオを効果的に一般化する。
提案手法を3つの主要なベンチマークデータセット上で広範囲に評価する。
論文 参考訳(メタデータ) (2025-06-08T06:30:37Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [7.266794815157721]
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型フレームワークを提案する。
LLMはタスクを分解してグローバルなセマンティックマップを構築し、VLMはタスク特定セマンティックラベルと2次元空間情報を空中画像から抽出し、ローカルプランニングをサポートする。
これは、VLMに基づく認識とLLM駆動のタスク推論とモーションプランニングを統合した地上異種システムの最初の実演である。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。