論文の概要: GazeVLA: Learning Human Intention for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2604.22615v2
- Date: Thu, 30 Apr 2026 12:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.625203
- Title: GazeVLA: Learning Human Intention for Robotic Manipulation
- Title(参考訳): GazeVLA:ロボットマニピュレーションのための人間の意図学習
- Authors: Chengyang Li, Kaiyi Xiong, Yuan Xu, Lei Qian, Yizhou Wang, Wentao Zhu,
- Abstract要約: エボディード・ファンデーション・モデルは、ロボット操作において大きなブレークスルーを達成したが、それでも大規模なロボットのデモンストレーションに大きく依存している。
人間の行動の根底にある意図は、このギャップを埋めるための強力な中間表現として役立つと我々は主張する。
本稿では,ロボット操作を容易にするための人間の意図を明示的に学習し,伝達する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.106797717672293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied foundation models have achieved significant breakthroughs in robotic manipulation, yet they still depend heavily on large-scale robot demonstrations. Although recent works have explored leveraging human data to alleviate this dependency, effectively extracting transferable knowledge remains a significant challenge due to the inherent embodiment gap between human and robot. We argue that the intention underlying human actions can serve as a powerful intermediate representation for bridging this gap. In this paper, we introduce a novel framework that explicitly learns and transfers human intention to facilitate robotic manipulation. Specifically, we model intention through gaze, as it naturally precedes physical actions and serves as an observable proxy for human intent. Our model is first pretrained on a large-scale egocentric human dataset to capture human intention and its synergy with action, followed by finetuning on a small set of robot and human data. During inference, the model adopts a Chain-of-Thought reasoning paradigm, sequentially predicting intention before executing the action. Extensive evaluations in simulation and real-world settings, across long-horizon and fine-grained tasks, and under few-shot and robustness benchmarks, show that our method consistently outperforms strong baselines, generalizes better, and achieves state-of-the-art performance. Project page: https://gazevla.github.io .
- Abstract(参考訳): エボディード・ファンデーション・モデルは、ロボット操作において大きなブレークスルーを達成したが、それでも大規模なロボットのデモンストレーションに大きく依存している。
近年の研究では、人間データの活用による依存の緩和が検討されているが、人間とロボットの間に固有のエンボディメントのギャップがあるため、伝達可能な知識を効果的に抽出することは大きな課題である。
人間の行動の根底にある意図は、このギャップを埋めるための強力な中間表現として役立つと我々は主張する。
本稿では,ロボット操作を容易にするための人間の意図を明示的に学習し,伝達する新しい枠組みを提案する。
具体的には、自然に身体行動に先行し、人間の意図の観察可能なプロキシとして機能するため、視線を通して意図をモデル化する。
我々のモデルはまず、人間の意図と行動の相乗効果を捉えるために、大規模な人間中心のデータセットで事前訓練され、続いて小さなロボットと人間のデータを微調整する。
推論の間、モデルはChain-of-Thought推論パラダイムを採用し、アクションを実行する前に意図を逐次予測する。
シミュレーションや実世界の設定における広範囲な評価,長距離および微粒なタスク,および少数ショットと頑健さのベンチマークにより,我々の手法は強いベースラインを一貫して上回り,より一般化し,最先端のパフォーマンスを達成することを示す。
プロジェクトページ: https://gazevla.github.io 。
関連論文リスト
- EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration [67.13034606664333]
EgoHumanoidは、エゴセントリックな人間のデモを使って視覚言語アクションポリシーを共同訓練する最初のフレームワークである。
スケーラブルな人的データ収集のためのポータブルシステムを開発した。
論文 参考訳(メタデータ) (2026-02-10T18:59:03Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.371855090716962]
視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。
既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。
我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:09:58Z) - DIRIGENt: End-To-End Robotic Imitation of Human Demonstrations Based on a Diffusion Model [16.26334759935617]
本研究では,人間の実演の観察から共同価値を生成するための新しいエンドツーエンド拡散手法であるDIRIGENtを紹介する。
我々は、人間がロボットを模倣するデータセットを作成し、この収集されたデータを使って、ロボットが人間を模倣できる拡散モデルを訓練する。
論文 参考訳(メタデータ) (2025-01-28T09:05:03Z) - Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation [16.809190349155525]
そこで本研究では,容易に利用可能な人間ロボットのビデオデータを利用して,ドメインギャップを埋める新しい適応パラダイムを提案する。
提案手法では,人間とロボットのビデオのセマンティクスを整列させるために,人間ロボットのアライメント損失を用いて,事前学習したモデルをパラメータ効率よくロボット領域に適応させる。
論文 参考訳(メタデータ) (2024-06-20T11:57:46Z) - Learning Human-to-Robot Handovers from Point Clouds [63.18127198174958]
視覚に基づく人間ロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。
シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。
論文 参考訳(メタデータ) (2023-03-30T17:58:36Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Human Grasp Classification for Reactive Human-to-Robot Handovers [50.91803283297065]
本稿では,ロボットが人間に遭遇するロボットのハンドオーバに対するアプローチを提案する。
対象物をさまざまな手形やポーズで保持する典型的な方法をカバーする,人間の把握データセットを収集する。
本稿では,検出した把握位置と手の位置に応じて人手から対象物を取り出す計画実行手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T19:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。