論文の概要: Intent at a Glance: Gaze-Guided Robotic Manipulation via Foundation Models
- arxiv url: http://arxiv.org/abs/2601.05336v1
- Date: Thu, 08 Jan 2026 19:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.706871
- Title: Intent at a Glance: Gaze-Guided Robotic Manipulation via Foundation Models
- Title(参考訳): ファンデーションモデルによる迷路誘導型ロボットマニピュレーション
- Authors: Tracey Yee Hsin Tay, Xu Yan, Jonathan Ouyang, Daniel Wu, William Jiang, Jonathan Kao, Yuchen Cui,
- Abstract要約: Eye Eyeは、高速で、非侵襲的で、意図に富んだ入力モダリティを提供する。
我々は,エゴ中心の視線追跡と視覚言語モデルを利用して,ユーザの意図を推測し,ロボット操作タスクを自律的に実行するシステムであるGAMMAを提案する。
結果は、GAMAが堅牢で直感的で汎用的な制御を提供し、基礎モデルを組み合わせる可能性と、自然でスケーラブルなロボット自律性を見つめることを強調している。
- 参考スコア(独自算出の注目度): 5.731055678884616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing intuitive interfaces for robotic control remains a central challenge in enabling effective human-robot interaction, particularly in assistive care settings. Eye gaze offers a fast, non-intrusive, and intent-rich input modality, making it an attractive channel for conveying user goals. In this work, we present GAMMA (Gaze Assisted Manipulation for Modular Autonomy), a system that leverages ego-centric gaze tracking and a vision-language model to infer user intent and autonomously execute robotic manipulation tasks. By contextualizing gaze fixations within the scene, the system maps visual attention to high-level semantic understanding, enabling skill selection and parameterization without task-specific training. We evaluate GAMMA on a range of table-top manipulation tasks and compare it against baseline gaze-based control without reasoning. Results demonstrate that GAMMA provides robust, intuitive, and generalizable control, highlighting the potential of combining foundation models and gaze for natural and scalable robot autonomy. Project website: https://gamma0.vercel.app/
- Abstract(参考訳): ロボット制御のための直感的なインターフェースを設計することは、効果的な人間とロボットの相互作用、特に補助的なケア設定を可能にする上で、依然として中心的な課題である。
Eye Eyeは、高速で、非侵襲的で、意図に富んだ入力モダリティを提供する。
本研究では、エゴ中心の視線追跡と視覚言語モデルを利用して、ユーザの意図を推測し、自律的にロボット操作タスクを実行するシステムであるGAMA(Gaze Assisted Manipulation for Modular Autonomy)を提案する。
視覚的注意を高レベルな意味理解にマッピングすることで、タスク固有のトレーニングを伴わずに、スキルの選択とパラメータ化を可能にする。
GAMMAをテーブルトップ操作タスクの範囲で評価し,ベースラインの視線に基づく制御と比較する。
結果は、GAMAが堅牢で直感的で汎用的な制御を提供し、基礎モデルを組み合わせる可能性と、自然でスケーラブルなロボット自律性を見つめることを強調している。
プロジェクトウェブサイト:https://gamma0.vercel.app/
関連論文リスト
- HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations [15.551927664158695]
Whole-Body Mobile Manipulation Interface (HoMMI)は、ロボットのない人間のデモから直接、全身のモバイル操作を学習する。
我々は、モバイル操作に必要なグローバルコンテキストをキャプチャするために、エゴセントリックな感覚でUMIインタフェースを拡張する。
私たちはこのギャップを、クロス・エボディメント・ハンド・アイ・ポリシー設計で明示的に埋めます。
論文 参考訳(メタデータ) (2026-03-03T18:36:49Z) - Robotic Grasping and Placement Controlled by EEG-Based Hybrid Visual and Motor Imagery [64.82869118243723]
本稿では,脳波に基づく視覚・運動画像(VI/MI)とロボット制御を統合し,リアルタイム・意図駆動型把握・配置を実現するフレームワークを提案する。
このシステムは、BCI駆動のロボット工学の約束に感銘を受けて、オフラインで事前訓練されたデコーダをゼロショットで展開することによって、ニューラルネットワークを物理的制御でブリッジする。
論文 参考訳(メタデータ) (2026-03-03T17:41:42Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers [2.736848514829367]
人間の視覚は視線によって駆動される非常に活発なプロセスであり、ファベーションを通じてタスク関連領域に注意を向ける。
本研究では,ロボット政策に人間のようなアクティブな視線を取り入れることで,効率性とロバスト性を高める方法について検討する。
我々は人間の頭と首の動きをエミュレートするロボットビジョンシステムであるGIAVAを開発し、ファーベレート処理のための視線調整を行う。
論文 参考訳(メタデータ) (2025-07-21T17:44:10Z) - Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration [28.825612240280822]
本稿では,言語理解,エゴセントリックなシーン認識,モーションコントロールを統合し,普遍的なヒューマノイド制御を実現する新しいフレームワークを提案する。
Humanoid-VLAは、テキスト記述と組み合わせた非エゴセントリックな人間の動きデータセットを使用して、言語運動の事前アライメントから始まる。
そして、パラメータを効率よくビデオコンディショニングすることで、エゴセントリックな視覚コンテキストを取り入れ、コンテキスト認識モーション生成を可能にする。
論文 参考訳(メタデータ) (2025-02-20T18:17:11Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。