論文の概要: In-N-On: Scaling Egocentric Manipulation with in-the-wild and on-task Data
- arxiv url: http://arxiv.org/abs/2511.15704v1
- Date: Wed, 19 Nov 2025 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.951996
- Title: In-N-On: Scaling Egocentric Manipulation with in-the-wild and on-task Data
- Title(参考訳): In-N-On:In-the-wildとOn-taskデータによるEgocentric Manipulationのスケーリング
- Authors: Xiongyi Cai, Ri-Zhao Qiu, Geng Chen, Lai Wei, Isabella Liu, Tianshu Huang, Xuxin Cheng, Xiaolong Wang,
- Abstract要約: エゴセントリックなビデオは、操作ポリシーを学ぶための価値がありスケーラブルなデータソースです。
本稿はまず,人間のデータを2つのカテゴリに分類することで,エゴセントリックなデータを収集・利用するためのスケーラブルなレシピを提供する。
我々は、Human0が、人間のデータのみからの指示に従う言語を含む、人間のデータのスケーリングから、いくつかの新しい特性を達成していることを示す。
- 参考スコア(独自算出の注目度): 33.674143801589956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric videos are a valuable and scalable data source to learn manipulation policies. However, due to significant data heterogeneity, most existing approaches utilize human data for simple pre-training, which does not unlock its full potential. This paper first provides a scalable recipe for collecting and using egocentric data by categorizing human data into two categories: in-the-wild and on-task alongside with systematic analysis on how to use the data. We first curate a dataset, PHSD, which contains over 1,000 hours of diverse in-the-wild egocentric data and over 20 hours of on-task data directly aligned to the target manipulation tasks. This enables learning a large egocentric language-conditioned flow matching policy, Human0. With domain adaptation techniques, Human0 minimizes the gap between humans and humanoids. Empirically, we show Human0 achieves several novel properties from scaling human data, including language following of instructions from only human data, few-shot learning, and improved robustness using on-task data. Project website: https://xiongyicai.github.io/In-N-On/
- Abstract(参考訳): エゴセントリックなビデオは、操作ポリシーを学ぶための価値がありスケーラブルなデータソースです。
しかし、データの不均一性が大きいため、既存のほとんどのアプローチでは、人間のデータを単純な事前学習に利用している。
本稿ではまず,人的データを2つのカテゴリに分類することで,エゴセントリックなデータを収集・利用するためのスケーラブルなレシピを提供する。
まず、ターゲット操作タスクに直列した1000時間以上の多彩な自己中心型データと、20時間以上のオンタスクデータを含むデータセットPHSDをキュレートする。
これにより、大規模なエゴセントリックな言語条件のフローマッチングポリシ、Human0を学ぶことができる。
ドメイン適応技術により、Human0は人間とヒューマノイドのギャップを最小化する。
経験的に、Human0は、人間のデータのみからの指示に従う言語、少数ショット学習、オンタスクデータによる堅牢性の改善など、人間のデータのスケーリングから、いくつかの新しい特性を実現していることを示す。
プロジェクトウェブサイト: https://xiongyicai.github.io/In-N-On/
関連論文リスト
- Humanoid Everyday: A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation [16.701354625940308]
Humanoid Everydayは大規模かつ多様なヒューマノイド操作データセットである。
RGB、deep、LiDAR、触覚入力を含む高品質なマルチモーダル感覚データを自然言語アノテーションとともに集約する。
我々は、データセット上で代表的政策学習手法の分析を行い、その強みと限界について洞察を提供する。
論文 参考訳(メタデータ) (2025-10-09T20:43:27Z) - Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions [110.43343503158306]
本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。
この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。
我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-08-06T17:46:23Z) - EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video [7.1221123957033905]
EgoDexは、これまでで最大かつ最も多様な人体操作のデータセットである。
ビデオの撮影時間は829時間で、3Dの手と指の追跡データをペアリングして記録する。
このデータセットは、194種類のテーブルトップタスクにおいて、日常的な家庭内オブジェクトとの多様な操作行動をカバーする。
論文 参考訳(メタデータ) (2025-05-16T21:34:47Z) - Humanoid Policy ~ Human Policy [41.34186233320398]
人間行動変換器(HAT)と呼ばれる人-人-人-行動政策を訓練する。
HATのステートアクション空間は、人間とヒューマノイドロボットの両方に統一されており、ロボットのアクションに微分的に再ターゲットすることができる。
人間のデータは,HATの一般化と堅牢性の両方を改善し,データ収集効率を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-03-17T17:59:09Z) - EgoMimic: Scaling Imitation Learning via Egocentric Video [22.902881956495765]
EgoMimicは、人間の体表データを介して操作をスケールするフルスタックフレームワークである。
EgoMimic は,1) エルゴノミクス・プロジェクト・Aria メガネを用いたヒトの体型データをキャプチャするシステム,2) 人体データとの運動的ギャップを最小限に抑える低コストなバイマティックマニピュレータ,(4) 人体データとロボットデータとのコトレーニングを行う模倣学習アーキテクチャ,の2つによって実現している。
論文 参考訳(メタデータ) (2024-10-31T17:59:55Z) - The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences [8.952954042940368]
このデータセットには、6か月から3歳までの子どもの、家庭内での縦断的、縦断的な自己中心的なビデオが含まれている。
我々は、自己教師型言語と視覚モデルを訓練し、配布外タスクへの移行を評価する。
私たちのデータセットは、堅牢で人間らしいAIシステムにとって、オープンな課題のひとつです。
論文 参考訳(メタデータ) (2024-06-14T23:52:27Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。
提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。
我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文 参考訳(メタデータ) (2023-04-18T05:42:53Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。