論文の概要: PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence
- arxiv url: http://arxiv.org/abs/2512.16793v2
- Date: Wed, 04 Feb 2026 11:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.411675
- Title: PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence
- Title(参考訳): PhysBrain:視覚言語モデルから物理的知性へのブリッジとしての人間中心のデータ
- Authors: Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Jiyan He, Cong Huang, Bojun Cheng, Kai Chen,
- Abstract要約: Egocentric2Embodiment Translation Pipelineは、生の人間中心のビデオをマルチレベルなスキーマ駆動型実施監視に変換する。
E2E-3Mデータセットのトレーニングにより、Egocentric-aware embodied brainであるPhysBrainを得る。
- 参考スコア(独自算出の注目度): 19.558594034613996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic generalization relies on physical intelligence: the ability to reason about state changes, contact-rich interactions, and long-horizon planning under egocentric perception and action. Vision Language Models (VLMs) are essential to Vision-Language-Action (VLA) systems, but the reliance on third-person training data creates a viewpoint gap for humanoid robots. Collecting massive robot-centric data is an ideal but impractical solution due to cost and diversity constraints. Conversely, human egocentric videos offer a highly scalable data source with rich interaction context, yet the embodiment mismatch prevents the direct application. To bridge this gap, we propose an Egocentric2Embodiment Translation Pipeline that transforms raw human egocentric videos into multi-level, schema-driven embodiment supervision with enforced evidence grounding and temporal consistency, enabling the construction of the Egocentric2Embodiment dataset (E2E-3M) at scale. An egocentric-aware embodied brain, termed PhysBrain, is obtained by training on the E2E-3M dataset. PhysBrain exhibits substantially improved egocentric understanding, particularly for planning. It provides an egocentric-aware initialization that enables more sample-efficient VLA fine-tuning and higher success rates, demonstrating effective transfer from human egocentric supervision to downstream robot control.
- Abstract(参考訳): ロボットの一般化は、物理的知性、すなわち、状態の変化、接触に富んだ相互作用、そして自我中心の知覚と行動の下での長い水平計画を推論する能力に依存している。
視覚言語モデル(VLM)はビジョン・ランゲージ・アクション(VLA)システムに必須であるが、第三者のトレーニングデータへの依存はヒューマノイドロボットの視点ギャップを生み出す。
大量のロボット中心のデータを収集することは、コストと多様性の制約により理想的だが非現実的な解決策である。
逆に、人間中心の動画は、リッチなインタラクションコンテキストを持つ高度にスケーラブルなデータソースを提供する。
このギャップを埋めるために,Egocentric2Embodiment Translation Pipelineを提案する。Egocentric2Embodiment dataset(E2E-3M)を大規模に構築することを可能にするため,生の人間中心の動画を多段階のスキーマ駆動型エンボディメント監視に変換する。
E2E-3Mデータセットのトレーニングにより、Egocentric-aware embodied brain(PhysBrain)が得られた。
PhysBrainは、特に計画において、エゴセントリックな理解を著しく改善している。
これは、よりサンプル効率の良いVLA微調整とより高い成功率を可能にし、人間中心の監督から下流ロボット制御への効果的な移行を実証するエゴセントリックな初期化を提供する。
関連論文リスト
- EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration [67.13034606664333]
EgoHumanoidは、エゴセントリックな人間のデモを使って視覚言語アクションポリシーを共同訓練する最初のフレームワークである。
スケーラブルな人的データ収集のためのポータブルシステムを開発した。
論文 参考訳(メタデータ) (2026-02-10T18:59:03Z) - Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions [110.43343503158306]
本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。
この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。
我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-08-06T17:46:23Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - EgoMimic: Scaling Imitation Learning via Egocentric Video [22.902881956495765]
EgoMimicは、人間の体表データを介して操作をスケールするフルスタックフレームワークである。
EgoMimic は,1) エルゴノミクス・プロジェクト・Aria メガネを用いたヒトの体型データをキャプチャするシステム,2) 人体データとの運動的ギャップを最小限に抑える低コストなバイマティックマニピュレータ,(4) 人体データとロボットデータとのコトレーニングを行う模倣学習アーキテクチャ,の2つによって実現している。
論文 参考訳(メタデータ) (2024-10-31T17:59:55Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。