論文の概要: AoE: Always-on Egocentric Human Video Collection for Embodied AI
- arxiv url: http://arxiv.org/abs/2602.23893v1
- Date: Fri, 27 Feb 2026 10:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.375168
- Title: AoE: Always-on Egocentric Human Video Collection for Embodied AI
- Title(参考訳): AoE:Egocentric Human Video Collection for Embodied AI
- Authors: Bowen Yang, Zishuo Li, Yang Sun, Changtao Miao, Yifan Yang, Man Luo, Xiaotong Yan, Feng Jiang, Jinchuan Shi, Yankai Fu, Ning Chen, Junkai Zhao, Pengwei Wang, Guocai Yao, Shanghang Zhang, Hao Chen, Zhe Li, Kai Zhu,
- Abstract要約: ファンデーションモデルは、事前トレーニングとスケーリングのために、大規模で高品質な現実世界のインタラクションデータを必要とする。
我々は,人間とスマートフォンを活用したハードウェア依存の簡易化を目的とした,Always-on Egocentric (AoE)データ収集システムを提案する。
- 参考スコア(独自算出の注目度): 44.083451969789216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied foundation models require large-scale, high-quality real-world interaction data for pre-training and scaling. However, existing data collection methods suffer from high infrastructure costs, complex hardware dependencies, and limited interaction scope, making scalable expansion challenging. In fact, humans themselves are ideal physically embodied agents. Therefore, obtaining egocentric real-world interaction data from globally distributed "human agents" offers advantages of low cost and sustainability. To this end, we propose the Always-on Egocentric (AoE) data collection system, which aims to simplify hardware dependencies by leveraging humans themselves and their smartphones, enabling low-cost, highly efficient, and scene-agnostic real-world interaction data collection to address the challenge of data scarcity. Specifically, we first employ an ergonomic neck-mounted smartphone holder to enable low-barrier, large-scale egocentric data collection through a cloud-edge collaborative architecture. Second, we develop a cross-platform mobile APP that leverages on-device compute for real-time processing, while the cloud hosts automated labeling and filtering pipelines that transform raw videos into high-quality training data. Finally, the AoE system supports distributed Ego video data collection by anyone, anytime, and anywhere. We evaluate AoE on data preprocessing quality and downstream tasks, demonstrating that high-quality egocentric data significantly boosts real-world generalization.
- Abstract(参考訳): ファンデーションモデルは、事前トレーニングとスケーリングのために、大規模で高品質な現実世界のインタラクションデータを必要とする。
しかし、既存のデータ収集手法は、高いインフラストラクチャコスト、複雑なハードウェア依存、限られた相互作用範囲に悩まされており、スケーラブルな拡張が困難である。
実際、人間自身は物理的に体現された理想のエージェントである。
したがって、グローバルに分散した「ヒューマンエージェント」からエゴセントリックな現実世界のインタラクションデータを取得することは、低コストと持続可能性の利点をもたらす。
この目的のために,Always-on Egocentric (AoE) データ収集システムを提案する。これは,人間自身とスマートフォンを活用することにより,ハードウェア依存の簡易化を目的としており,低コスト,高効率,シーンに依存しない実世界のインタラクションデータ収集を可能にし,データ不足の課題に対処する。
具体的には、まずエルゴノミクスのネックマウントスマートフォンホルダーを使用して、クラウドエッジのコラボレーティブアーキテクチャを通じて、低バリアで大規模なエゴセントリックなデータ収集を可能にします。
第2に、デバイス上での計算をリアルタイム処理に活用するクロスプラットフォームなモバイルAPPを開発し、クラウドは生動画を高品質なトレーニングデータに変換する自動ラベリングとフィルタリングパイプラインをホストしている。
最後に、AoEシステムは、いつでもどこでもどこでもどこでも、分散Egoビデオデータ収集をサポートする。
我々は、データ前処理の品質と下流タスクについてAoEを評価し、高品質なエゴセントリックなデータが現実世界の一般化を著しく促進することを示した。
関連論文リスト
- Percepta: High Performance Stream Processing at the Edge [0.0]
本稿では、エッジでのAIワークロードをサポートするために設計された、軽量データストリーム処理(DSP)システムであるPerceptaを提案する。
その他の機能としては、データの正規化、異種プロトコル間の調和化、サンプリングレート、不足データや不完全データの堅牢なハンドリングなどがある。
論文 参考訳(メタデータ) (2025-10-02T08:57:45Z) - Developing Vision-Language-Action Model from Egocentric Videos [14.1517430035289]
エゴセントリックなビデオは、人間がオブジェクトやツールを操作する方法を捉え、オブジェクトの操作を学ぶための多様な動きの手がかりを提供する。
このようなビデオを利用してロボットのポリシーを訓練する以前の研究は、手動の詳細な記録のような補助的なアノテーションに依存していた。
本研究では,エゴセントリックビデオから6DoFオブジェクト操作トラジェクトリを抽出するフレームワークであるEgoScalerを活用することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-09-26T07:09:33Z) - InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation [54.09384502044162]
大規模な3D HOIベンチマークであるInterActを導入する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-11T15:43:54Z) - AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems [88.05152114775498]
AgiBot Worldは、217のタスクにまたがる100万以上のトラジェクトリを5つのデプロイメントシナリオで構成した大規模なプラットフォームである。
AgiBot Worldは高品質で多様なデータ配信を保証する。
GO-1は、現実世界のデクスタラスタスクや長距離タスクにおいて例外的な能力を示す。
論文 参考訳(メタデータ) (2025-03-09T15:40:29Z) - When Incentives Backfire, Data Stops Being Human [27.26816810619047]
大規模言語モデルの普及は、人間の生成したデータの質と整合性を脅かすと論じる。
既存のデータ収集システムは、本質的な人間のモチベーションを犠牲にして、スピード、スケール、効率を優先する。
コントリビュータの本質的なモチベーションに合わせて,データ収集システムを再考する。
論文 参考訳(メタデータ) (2025-02-11T17:51:52Z) - MobileA3gent: Training Mobile GUI Agents Using Decentralized Self-Sourced Data from Diverse Users [52.696186533146516]
MobileA3gentは、分散したセルフソースデータを使用してモバイルGUIエージェントをトレーニングするコラボレーティブフレームワークである。
MobileA3gentは従来のアプローチよりも1%のコストで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-05T08:26:17Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Data-centric AI: Perspectives and Challenges [51.70828802140165]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。
データ開発、推論データ開発、データメンテナンスの3つの一般的なミッションをまとめます。
論文 参考訳(メタデータ) (2023-01-12T05:28:59Z) - Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy [2.9005223064604078]
本稿では,自律飛行に適したスケーラブルなAerial Synthetic Data Augmentation (ASDA) フレームワークを提案する。
ASDAは、シーンとデータ拡張を自動的に実行する2つのスクリプト可能なパイプラインを備えた中央データ収集エンジンを拡張している。
多様なデータセットを自動生成する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-10T04:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。