論文の概要: Emergence of Human to Robot Transfer in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2512.22414v1
- Date: Sat, 27 Dec 2025 00:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.040193
- Title: Emergence of Human to Robot Transfer in Vision-Language-Action Models
- Title(参考訳): 視覚・言語・行動モデルにおける人間とロボットの移動の創発
- Authors: Simar Kareer, Karl Pertsch, James Darpinian, Judy Hoffman, Danfei Xu, Sergey Levine, Chelsea Finn, Suraj Nair,
- Abstract要約: VLA(Vision-Language-action)モデルは、幅広いオープンワールドの一般化を可能にするが、大規模で多様なデータセットを必要とする。
VLAが十分なシーン、タスク、実施状況で事前訓練された後に、人間とロボットの移動が出現することを示す。
- 参考スコア(独自算出の注目度): 88.76648919814771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models can enable broad open world generalization, but require large and diverse datasets. It is appealing to consider whether some of this data can come from human videos, which cover diverse real-world situations and are easy to obtain. However, it is difficult to train VLAs with human videos alone, and establishing a mapping between humans and robots requires manual engineering and presents a major research challenge. Drawing inspiration from advances in large language models, where the ability to learn from diverse supervision emerges with scale, we ask whether a similar phenomenon holds for VLAs that incorporate human video data. We introduce a simple co-training recipe, and find that human-to-robot transfer emerges once the VLA is pre-trained on sufficient scenes, tasks, and embodiments. Our analysis suggests that this emergent capability arises because diverse pretraining produces embodiment-agnostic representations for human and robot data. We validate these findings through a series of experiments probing human to robot skill transfer and find that with sufficiently diverse robot pre-training our method can nearly double the performance on generalization settings seen only in human data.
- Abstract(参考訳): VLA(Vision-Language-action)モデルは、幅広いオープンワールドの一般化を可能にするが、大規模で多様なデータセットを必要とする。
このデータの一部が、さまざまな現実世界の状況をカバーし、入手が容易な人間のビデオから得られるかどうかを検討するのは魅力的だ。
しかしながら、人間のビデオだけでVLAを訓練することは困難であり、人間とロボットのマッピングを確立するには手動技術が必要であり、大きな研究課題が提示される。
多様な監督から学習する能力が大規模に現れる大規模言語モデルの進歩からインスピレーションを得た上で、人間のビデオデータを含むVLAにも同様の現象が生じるかどうかを問う。
簡単な協調学習のレシピを導入し,VLAが十分なシーン,タスク,実施状況で事前学習されると,人間とロボットの移動が出現することを確認した。
我々の分析は、多様な事前学習が人間とロボットのデータに対してエンボディメントに依存しない表現を生成するため、この創発的能力が生じることを示唆している。
これらの知見を,人間とロボットのスキル伝達を実証する一連の実験を通じて検証し,本手法を事前学習することで,人間のデータにのみ見られる一般化設定における性能をほぼ2倍にすることができることを確認した。
関連論文リスト
- MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文 参考訳(メタデータ) (2025-10-24T15:39:31Z) - AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.371855090716962]
視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。
既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。
我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:09:58Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。