論文の概要: D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI
- arxiv url: http://arxiv.org/abs/2510.05684v1
- Date: Tue, 07 Oct 2025 08:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.165867
- Title: D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI
- Title(参考訳): D2E: 身体的AIへの転送のためのデスクトップデータに基づく視覚アクション事前トレーニング
- Authors: Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee,
- Abstract要約: 本稿では,D2E(Desktop to Embodied AI)について紹介する。
このフレームワークは,(1) 多様なデスクトップインタラクションを152倍圧縮で標準化されたフォーマットに統一するOWA Toolkit,(2) タイムスタンプベースのイベント予測により,見えないゲーム間で強力なゼロショット一般化を実現するGeneralist-IDM,(3) デスクトップに制約された表現を物理操作やナビゲーションに転送するVAPTの3つのコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 26.33451769892426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models leverage internet-scale text data, yet embodied AI remains constrained by the prohibitive costs of physical trajectory collection. Desktop environments -- particularly gaming -- offer a compelling alternative: they provide rich sensorimotor interactions at scale while maintaining the structured observation-action coupling essential for embodied learning. We present D2E (Desktop to Embodied AI), a framework that demonstrates desktop interactions can serve as an effective pretraining substrate for robotics embodied AI tasks. Unlike prior work that remained domain-specific (e.g., VPT for Minecraft) or kept data proprietary (e.g., SIMA), D2E establishes a complete pipeline from scalable desktop data collection to verified transfer in embodied domains. Our framework comprises three components: (1) the OWA Toolkit that unifies diverse desktop interactions into a standardized format with 152x compression, (2) the Generalist-IDM that achieves strong zero-shot generalization across unseen games through timestamp-based event prediction, enabling internet-scale pseudo-labeling, and (3) VAPT that transfers desktop-pretrained representations to physical manipulation and navigation. Using 1.3K+ hours of data (259 hours of human demonstrations, and 1K+ hours of pseudo-labeled gameplay), we achieve a total of 96.6% success rate on LIBERO manipulation and 83.3% on CANVAS navigation benchmarks. This validates that sensorimotor primitives in digital interactions exhibit sufficient invariance to transfer meaningfully to physical embodied tasks, establishing desktop pretraining as a practical paradigm for robotics. We will make all our work public, including the OWA toolkit, datasets of human-collected and pseudo-labeled, and VAPT-trained models available at https://worv-ai.github.io/d2e/
- Abstract(参考訳): 大規模な言語モデルは、インターネット規模のテキストデータを活用するが、具体化されたAIは、物理的な軌跡収集の禁止コストに制約されているままである。
デスクトップ環境(特にゲーム)は、エンボディドラーニングに不可欠な構造化された観察-行動結合を維持しながら、大規模にリッチな知覚的相互作用を提供する、魅力的な代替手段を提供する。
本稿では,D2E(Desktop to Embodied AI)について紹介する。
ドメイン固有の作業(MinecraftのVPTなど)やデータプロプライエタリな作業(SIMAなど)とは違い、D2Eはスケーラブルなデスクトップデータ収集から、具体化されたドメインでの検証された転送に至るまで、完全なパイプラインを確立する。
このフレームワークは,(1) 多様なデスクトップインタラクションを152倍圧縮で標準化されたフォーマットに統一するOWA Toolkit,(2) タイムスタンプベースのイベント予測により,見えないゲーム間で強力なゼロショット一般化を実現するGeneralist-IDM,(3) デスクトップに制限された表現を物理操作やナビゲーションに転送するVAPTの3つのコンポーネントから構成される。
1.3K以上のデータ(259時間の人間によるデモンストレーション、1K以上の擬似ラベル付きゲームプレイ)を用いて、LIBERO操作で96.6%、CANVASナビゲーションベンチマークで83.3%の成功率を達成した。
これは、デジタルインタラクションにおける感覚運動プリミティブが、物理的に具体化されたタスクに意味のある伝達を行うのに十分な不変性を示し、ロボット工学の実践的なパラダイムとしてデスクトップ事前訓練を確立することを検証する。
私たちは、OWAツールキット、人間による収集と擬似ラベルのデータセット、VAPTでトレーニングされたモデルの全てをhttps://worv-ai.github.io/d2e/で公開します。
関連論文リスト
- Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning [43.18609951839598]
現代のAIにとっての大きな課題は、世界を理解し、主に観察によって行動することを学ぶことである。
本稿では,インターネット規模のビデオデータと少量のインタラクションデータを組み合わせた自己教師型アプローチについて検討する。
我々は物理世界で理解し、予測し、計画できるモデルを開発する。
論文 参考訳(メタデータ) (2025-06-11T17:57:09Z) - Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents [57.59830804627066]
実世界のモバイルOSナビゲーションをキャプチャする20Kの指導ビデオから,313Kの注釈付きフレームの大規模データセットであるMONDAYを紹介した。
MONDAYを事前学習フェーズに含むモデルは、堅牢なクロスプラットフォームの一般化機能を示す。
公開されているビデオコンテンツを利用して、包括的なタスクデータセットを作成する自動化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T02:39:03Z) - ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action
Understanding [8.923830513183882]
ATTACHデータセットは、95.2kの注釈付き微粒なアクションを3台のカメラで監視する51.6時間のアセンブリを含む。
ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
ビデオおよび骨格配列入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
論文 参考訳(メタデータ) (2023-04-17T12:31:24Z) - CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation
Learning [33.88636835443266]
キッチン環境におけるマルチタスク・マルチシーンロボット操作のレンズ下でのロボット学習のスケールアップのためのフレームワークを提案する。
CACTIという名前のフレームワークは,データ収集,データ拡張,視覚表現学習,模倣ポリシートレーニングの4つの段階を別々に扱う。
CACTIフレームワークでは、拡張段階の一部として、画像生成に最先端モデルを適用する利点を強調している。
論文 参考訳(メタデータ) (2022-12-12T05:30:08Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。