論文の概要: EnerVerse-AC: Envisioning Embodied Environments with Action Condition
- arxiv url: http://arxiv.org/abs/2505.09723v1
- Date: Wed, 14 May 2025 18:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-18 16:36:57.406622
- Title: EnerVerse-AC: Envisioning Embodied Environments with Action Condition
- Title(参考訳): EnerVerse-AC:アクション条件による身体環境の構想
- Authors: Yuxin Jiang, Shengcong Chen, Siyuan Huang, Liliang Chen, Pengfei Zhou, Yue Liao, Xindong He, Chiming Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren,
- Abstract要約: EnerVerse-ACは、エージェントの予測されたアクションに基づいて将来の視覚的観察を生成するアクション条件の世界モデルである。
EVACは、多種多様なデータセットに人為的なトラジェクトリを拡張し、ポリシーテストのためのリアルでアクション条件のビデオ観察を生成する。
- 参考スコア(独自算出の注目度): 47.97500109323355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic imitation learning has advanced from solving static tasks to addressing dynamic interaction scenarios, but testing and evaluation remain costly and challenging due to the need for real-time interaction with dynamic environments. We propose EnerVerse-AC (EVAC), an action-conditional world model that generates future visual observations based on an agent's predicted actions, enabling realistic and controllable robotic inference. Building on prior architectures, EVAC introduces a multi-level action-conditioning mechanism and ray map encoding for dynamic multi-view image generation while expanding training data with diverse failure trajectories to improve generalization. As both a data engine and evaluator, EVAC augments human-collected trajectories into diverse datasets and generates realistic, action-conditioned video observations for policy testing, eliminating the need for physical robots or complex simulations. This approach significantly reduces costs while maintaining high fidelity in robotic manipulation evaluation. Extensive experiments validate the effectiveness of our method. Code, checkpoints, and datasets can be found at <https://annaj2178.github.io/EnerverseAC.github.io>.
- Abstract(参考訳): ロボット模倣学習は、静的タスクの解決から動的相互作用のシナリオへの対処まで進歩してきたが、動的環境とのリアルタイムインタラクションの必要性から、テストと評価はコストがかかり難いままである。
本研究では,エージェントの予測行動に基づいて将来の視覚的観察を生成できる行動条件付き世界モデルであるEnerVerse-ACを提案する。
EVACは、従来のアーキテクチャに基づいて、動的多視点画像生成のためのマルチレベルアクションコンディショニング機構とレイマップエンコーディングを導入し、多様な障害軌跡を持つトレーニングデータを拡張して、一般化を改善する。
データエンジンと評価器の両方として、EVACは、人間の収集した軌跡を多様なデータセットに拡張し、ポリシーテストのためのリアルでアクション条件のビデオ観察を生成し、物理的なロボットや複雑なシミュレーションを不要にする。
このアプローチは、ロボット操作評価において高い忠実性を維持しながら、コストを大幅に削減する。
大規模な実験により,本手法の有効性が検証された。
コード、チェックポイント、データセットは <https://annaj2178.github.io/EnerverseAC.github.io> で見ることができる。
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - ConditionNET: Learning Preconditions and Effects for Execution Monitoring [9.64001633229156]
ConditionNETは、完全にデータ駆動の方法でアクションの前提条件と効果を学ぶためのアプローチである。
実験では, 異常検出と位相予測の両方において, ConditionNET がすべてのベースラインを上回り, 性能が向上することを示した。
本研究では,実環境におけるロボットの信頼性と適応性を高めるための ConditionNET の可能性を強調した。
論文 参考訳(メタデータ) (2025-02-03T09:00:45Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - CLOUD: Contrastive Learning of Unsupervised Dynamics [19.091886595825947]
コントラスト推定により、完全に教師のない方法で前方・逆ダイナミクスを学習することを提案する。
目標指向計画や観察からの模倣など,さまざまなタスクにまたがるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-23T15:42:57Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。