論文の概要: Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers
- arxiv url: http://arxiv.org/abs/2507.15833v2
- Date: Mon, 22 Sep 2025 17:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.445536
- Title: Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers
- Title(参考訳): Look, Focus, Act: Human GazeとFoveated Vision Transformersによる効率的でロバストなロボット学習
- Authors: Ian Chuang, Jinyu Zou, Andrew Lee, Dechen Gao, Iman Soltani,
- Abstract要約: 人間の視覚は視線によって駆動される非常に活発なプロセスであり、ファベーションを通じてタスク関連領域に注意を向ける。
本研究では,ロボット政策に人間のようなアクティブな視線を取り入れることで,効率性とロバスト性を高める方法について検討する。
我々は人間の頭と首の動きをエミュレートするロボットビジョンシステムであるGIAVAを開発し、ファーベレート処理のための視線調整を行う。
- 参考スコア(独自算出の注目度): 2.736848514829367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human vision is a highly active process driven by gaze, which directs attention to task-relevant regions through foveation, dramatically reducing visual processing. In contrast, robot learning systems typically rely on passive, uniform processing of raw camera images. In this work, we explore how incorporating human-like active gaze into robotic policies can enhance efficiency and robustness. We develop GIAVA (Gaze Integrated Active-Vision ALOHA), a robot vision system that emulates human head and neck movement, and gaze adjustment for foveated processing. Extending the AV-ALOHA robot platform, we introduce a framework for simultaneously collecting eye-tracking, perspective control, and robot manipulation demonstration data from a human operator. We also open-source a simulation benchmark and dataset for training robot policies that incorporate human gaze. Inspired by recent work in foveated image segmentation and given the widespread use of Vision Transformers (ViTs) in robot learning, we integrate gaze information into ViTs using a foveated patch tokenization scheme. Compared to uniform patch tokenization, this significantly reduces the number of tokens, and thus computation. Our results show that our method for foveated robot vision drastically reduces computational overhead, and enhances robustness to background distractors. Notably, on certain high-precision tasks, foveated vision also improves performance, as reflected in higher success rates. Together, these findings suggest that human-inspired foveated visual processing offers untapped potential and should be further considered as a useful inductive bias in robotic vision systems. https://ian-chuang.github.io/gaze-av-aloha/
- Abstract(参考訳): 人間の視覚は視線によって駆動される非常に活発なプロセスであり、ファベーションを通じてタスク関連領域に注意を向け、視覚処理を劇的に減らす。
対照的に、ロボット学習システムは一般的に、生のカメラ画像の受動的で均一な処理に依存している。
本研究では,ロボット政策に人間のようなアクティブな視線を取り入れることで,効率性とロバスト性を高める方法について検討する。
GIAVA(Gaze Integrated Active-Vision ALOHA)は,人間の頭と首の動きをエミュレートするロボットビジョンシステムである。
AV-ALOHAロボットプラットフォームを拡張して、人間の操作者から視線追跡、視点制御、ロボット操作デモデータを同時に収集するフレームワークを導入する。
また、人間の視線を取り入れたロボットポリシーをトレーニングするためのシミュレーションベンチマークとデータセットをオープンソースとして公開しています。
ロボット学習に視覚変換器(ViT)を広く利用した最近の画像セグメント化の研究に触発されて、私たちは、Foveated patch tokenizationスキームを用いて視線情報をViTに統合した。
均一なパッチトークン化と比較すると、トークンの数が大幅に減少し、計算量も減少する。
提案手法は,ロボットビジョンの計算オーバーヘッドを大幅に減らし,背景障害に対するロバスト性を向上することを示す。
特に、特定の高精度タスクにおいて、ファベレーテッドビジョンは、より高い成功率に反映されるように、パフォーマンスも向上する。
これらの結果は、人間にインスパイアされた望ましくない視覚処理が未解決の可能性を秘めており、ロボットビジョンシステムにおいて有益な帰納的バイアスとみなすべきであることを示唆している。
https://ian-chuang.github.io/gaze-av-aloha/
関連論文リスト
- Visual IRL for Human-Like Robotic Manipulation [5.167226775583172]
本研究では,協調ロボット(コボット)が操作タスクを学習し,それを人間的な方法で実行するための新しい手法を提案する。
本手法は,ロボットが人間の行動を観察してタスクの実行を学習する,LfO(Learning-from-observation)パラダイムに該当する。
2つの異なる現実的な操作課題に対して,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-12-16T01:23:13Z) - Prediction with Action: Visual Policy Learning via Joint Denoising Process [14.588908033404474]
PADは、画像予測とロボットアクションを統合する視覚ポリシー学習フレームワークである。
DiTは画像とロボット状態をシームレスに統合し、将来の画像とロボット動作の同時予測を可能にする。
Padは従来の手法よりも優れており、Metaworldのベンチマークで26.3%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T09:54:58Z) - Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。
実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文 参考訳(メタデータ) (2024-07-26T17:59:52Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。