論文の概要: Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation
- arxiv url: http://arxiv.org/abs/2605.30282v1
- Date: Thu, 28 May 2026 17:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.635739
- Title: Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation
- Title(参考訳): Gaze2Act:対話型ロボットマニピュレーションのための迷路調和型ビジョンランゲージ・アクション・ポリシー
- Authors: Kuangji Zuo, Gen Li, Bofan Lyu, Yanshuo Lu, Boyu Ma, Shijia Han, Xinyu Zhou, Xichen Yuan, Chuhao Zhou, Jiaqi Bai, Geng Li, Jianfei Yang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、最近、言語命令に従うことでロボット学習の可能性を強く示している。
どのオブジェクトが類似の候補と相互作用するか、どこでオブジェクトに作用するか、実行中にターゲットがどのように変化するかを記述するのは難しい。
複雑な対話操作のための動的かつ直感的な意図信号として人間の視線を利用する新しいVLAフレームワークであるGaze2Actを提案する。
- 参考スコア(独自算出の注目度): 24.026684861369386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have recently shown strong potential for robot learning by following language instructions. However, in practice, language alone is often insufficient to precisely convey human intent. It is difficult to describe which exact object to interact with among similar candidates, where to act on the object, or how the target may change during execution. To address this limitation, we propose Gaze2Act, a novel VLA framework that leverages human gaze as a dynamic and intuitive intent signal for complex interactive manipulation. Gaze2Act first bridges the ego-exo view gap by mapping first-person gaze into the robot's perspective through cross-view semantic matching, producing both an object mask and a gaze point for coarse-to-fine target specification. These cues are then integrated into the policy through perception-level prompting and action-level conditioning, allowing the robot to attend to relevant regions and execute precise interactions under dynamic intent. In a systematic evaluation across seven task categories and 16 real-robot tasks on a Unitree G1 humanoid, Gaze2Act achieves state-of-the-art performance in both intent accuracy and task success rate. It notably outperforms baselines in object disambiguation, fine-grained interaction, and dynamic intent steering. These results demonstrate that human gaze provides a natural, low-burden, and highly expressive modality for human-in-the-loop VLA control.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、最近、言語命令に従うことでロボット学習の可能性を強く示している。
しかし、実際には、言語だけでは人間の意図を正確に伝えるには不十分であることが多い。
どのオブジェクトが類似の候補と相互作用するか、どこでオブジェクトに作用するか、実行中にターゲットがどのように変化するかを記述するのは難しい。
この制限に対処するため,複雑な対話操作のための動的かつ直感的な意図信号として人間の視線を利用する新しいVLAフレームワークであるGaze2Actを提案する。
Gaze2Actは、一対一の視線を横断的なセマンティックマッチングによってロボットの視線にマッピングすることで、エゴ・エクソの視線ギャップを橋渡し、オブジェクトマスクと粗い目標仕様の視線ポイントの両方を生成する。
これらのキューは、知覚レベルのプロンプトとアクションレベルの条件付けを通じてポリシーに統合され、ロボットは関連する領域に参加し、動的意図の下で正確な相互作用を実行することができる。
ユニツリーG1ヒューマノイド上での7つのタスクカテゴリと16のリアルタイムロボットタスクの体系的評価において、Gaze2Actは意図的精度とタスク成功率の両方で最先端のパフォーマンスを達成する。
特に、オブジェクトの曖昧さ、きめ細かい相互作用、動的インテントステアリングにおいて、ベースラインを上回ります。
これらの結果は、人間の視線が人間のループ内VLA制御に自然で、低バーデンで、非常に表現力の高いモダリティを提供することを示している。
関連論文リスト
- GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations [19.347332945780273]
VLA(Vision-Language-Action)モデルは、知覚と行動の統一による汎用ロボット操作の強力な可能性を示している。
ジェスチャーを並列命令として導入し,GesVLA(Gesture-Aware Vision-Language-Action Model)を提案する。
実験結果から,ジェスチャを組み込むことにより,目標の接地精度と人間とロボットの相互作用効率が一貫した改善が得られた。
論文 参考訳(メタデータ) (2026-05-21T17:57:44Z) - PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations [66.94988600664574]
我々は,目標達成型強化学習を通じて事前学習を再構築するVLA基盤モデルであるtextbfPRTS(textbfPrimitive textbfReasoning and textbfTasking textbfSystem)を提案する。
論文 参考訳(メタデータ) (2026-04-30T06:14:02Z) - Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文 参考訳(メタデータ) (2026-03-13T13:08:26Z) - EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models [31.768426199719816]
EgoActingは,高レベルの指示を様々な,正確に,空間的に認識されたヒューマノイド行動に直結させることが要求される。
さらに,ロコモーションプリミティブを予測可能な,統一的でスケーラブルな視覚言語モデル(VLM)であるEgoActorを導入することで,このタスクをインスタンス化する。
我々は,実世界の実演,空間的推論質問応答,シミュレートされた環境デモンストレーションから,エゴセントリックなRGBのみのデータに対する広範囲の監視を活用している。
論文 参考訳(メタデータ) (2026-02-04T13:04:56Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。
本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T12:15:14Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。
本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T00:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。