論文の概要: MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware
- arxiv url: http://arxiv.org/abs/2605.05945v3
- Date: Wed, 13 May 2026 08:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.770015
- Title: MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware
- Title(参考訳): MobileEgo Anywhere:コモディティハードウェア上の長い地平線エゴセントリックなデータのためのオープンインフラストラクチャ
- Authors: Senthil Palanisamy, Abhishek Anand, Satpal Singh Rathor, Pratyush Patnaik, Shubhanshu Khatana,
- Abstract要約: MobileEgo Anywhereは、コモディティなモバイルハードウェアを使用した堅牢な時間とエゴセントリックなトラジェクトリの収集を容易にするために設計されたフレームワークである。
我々は,200時間にわたる多種多様・長文のエゴセントリックなデータと永続的な状態追跡からなる新しいデータセットを作成した。
我々は、生のモバイルキャプチャーを、ビジョン言語アクションモデルと基礎モデル研究のための、標準化されたトレーニング可能なフォーマットに変換するための包括的な処理パイプラインを提供する。
- 参考スコア(独自算出の注目度): 0.35918066453136693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancement of Vision Language Action (VLA) models has driven a critical demand for large scale egocentric datasets. However, existing datasets are often limited by short episode durations, typically spanning only a few minutes, which fails to capture the long horizon temporal dependencies necessary for complex robotic task execution. To bridge this gap, we present MobileEgo Anywhere, a framework designed to facilitate the collection of robust, hour plus egocentric trajectories using commodity mobile hardware. We leverage the ubiquitous sensor suites of modern smartphones to provide high fidelity, long term camera pose tracking, effectively removing the high hardware barriers associated with traditional robotics data collection. Our contributions are three fold: (1) we release a novel dataset comprising 200 hours of diverse, long form egocentric data with persistent state tracking; (2) we open source a mobile application that enables any user to record egocentric data, and (3) we provide a comprehensive processing pipeline to convert raw mobile captures into standardized, training ready formats for Vision Language Action model and foundation model research. By democratizing the data collection process, this work enables the massive scale acquisition of long horizon data across varied global environments, accelerating the development of generalizable robotic policies.
- Abstract(参考訳): ビジョン言語アクション(VLA)モデルの最近の進歩は、大規模なエゴセントリックなデータセットに対する重要な需要を惹き付けている。
しかし、既存のデータセットは、しばしば短いエピソードの期間で制限され、通常は数分しかかからないが、複雑なロボットタスクの実行に必要な長い水平時間依存性をキャプチャできない。
このギャップを埋めるために、我々はMobileEgo Anywhereというフレームワークを紹介します。
我々は、最新のスマートフォンのユビキタスなセンサースイートを活用し、高忠実で長期的なカメラポーズトラッキングを提供し、従来のロボティクスデータ収集に関連する高いハードウェア障壁を効果的に除去する。
コントリビューションは3つある: 1) 200時間に及ぶ多様で長い形のエゴセントリックなデータと永続的な状態追跡,(2)任意のユーザがエゴセントリックなデータを記録できるモバイルアプリケーションをオープンソースとして公開し,(3) 生のモバイルキャプチャを標準化されたトレーニング可能なフォーマットに変換するための包括的な処理パイプラインを提供する。
データ収集プロセスの民主化により、この作業は、さまざまなグローバル環境にわたる長期水平データの大規模取得を可能にし、一般化可能なロボットポリシーの開発を加速する。
関連論文リスト
- OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis [98.43366988856592]
高品質なタスク命令とエージェントトラジェクトリを合成するオープンソースフレームワークであるOpenMobileについて述べる。
データに基づいてトレーニングされたエージェントは、3つの動的モバイルエージェントベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2026-04-16T14:53:08Z) - AoE: Always-on Egocentric Human Video Collection for Embodied AI [44.083451969789216]
ファンデーションモデルは、事前トレーニングとスケーリングのために、大規模で高品質な現実世界のインタラクションデータを必要とする。
我々は,人間とスマートフォンを活用したハードウェア依存の簡易化を目的とした,Always-on Egocentric (AoE)データ収集システムを提案する。
論文 参考訳(メタデータ) (2026-02-27T10:41:49Z) - AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation [27.07279683330287]
AIRoA MoMaは、モバイル操作のための大規模な実世界のマルチモーダルデータセットである。
これには、同期されたRGBイメージ、関節状態、6軸手首力トルク信号、そして内部ロボット状態が含まれる。
最初のデータセットは、HSR(Human Support Robot)で収集された25,469エピソードで構成され、LeRobot v2.1フォーマットで完全に標準化されている。
論文 参考訳(メタデータ) (2025-09-29T16:51:47Z) - InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation [54.09384502044162]
大規模な3D HOIベンチマークであるInterActを導入する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-11T15:43:54Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents [57.59830804627066]
実世界のモバイルOSナビゲーションをキャプチャする20Kの指導ビデオから,313Kの注釈付きフレームの大規模データセットであるMONDAYを紹介した。
MONDAYを事前学習フェーズに含むモデルは、堅牢なクロスプラットフォームの一般化機能を示す。
公開されているビデオコンテンツを利用して、包括的なタスクデータセットを作成する自動化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T02:39:03Z) - UniMTS: Unified Pre-training for Motion Time Series [32.419834492563155]
動作時系列の最初の統合事前学習手順であるUniMTSを紹介する。
我々は,大規模言語モデルによって強化されたテキスト記述と動作時系列を整合させる,対照的な学習フレームワークを採用している。
本モデルでは,18の動作時系列分類ベンチマークデータセットに対して,例外的な一般化性を示す。
論文 参考訳(メタデータ) (2024-10-18T06:39:13Z) - EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset [19.496721051685135]
身体追跡は多くの自我中心の視覚問題にとって重要な要素である。
EgoTracksは、長期的なエゴセントリックなビジュアルオブジェクトトラッキングのための新しいデータセットである。
本稿では,STARKトラッカーの性能向上を図り,エゴセントリックデータの性能向上を図っている。
論文 参考訳(メタデータ) (2023-01-09T09:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。