論文の概要: Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers
- arxiv url: http://arxiv.org/abs/2507.15833v1
- Date: Mon, 21 Jul 2025 17:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.515591
- Title: Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers
- Title(参考訳): Look, Focus, Act: Human GazeとFoveated Vision Transformersによる効率的でロバストなロボット学習
- Authors: Ian Chuang, Andrew Lee, Dechen Gao, Jinyu Zou, Iman Soltani,
- Abstract要約: 人間の視覚は視線によって駆動される非常に活発なプロセスであり、注意と固定をタスク関連領域に向ける。
本研究では,ロボット政策に人間のようなアクティブな視線を取り入れることで,効率と性能を両立させる方法について検討する。
- 参考スコア(独自算出の注目度): 1.1031714356680165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human vision is a highly active process driven by gaze, which directs attention and fixation to task-relevant regions and dramatically reduces visual processing. In contrast, robot learning systems typically rely on passive, uniform processing of raw camera images. In this work, we explore how incorporating human-like active gaze into robotic policies can enhance both efficiency and performance. We build on recent advances in foveated image processing and apply them to an Active Vision robot system that emulates both human head movement and eye tracking. Extending prior work on the AV-ALOHA robot simulation platform, we introduce a framework for simultaneously collecting eye-tracking data and robot demonstrations from a human operator as well as a simulation benchmark and dataset for training robot policies that incorporate human gaze. Given the widespread use of Vision Transformers (ViTs) in robot learning, we integrate gaze information into ViTs using a foveated patch tokenization scheme inspired by recent work in image segmentation. Compared to uniform patch tokenization, this significantly reduces the number of tokens-and thus computation-without sacrificing visual fidelity near regions of interest. We also explore two approaches to gaze imitation and prediction from human data. The first is a two-stage model that predicts gaze to guide foveation and action; the second integrates gaze into the action space, allowing the policy to jointly predict gaze and actions end-to-end. Our results show that our method for foveated robot vision not only drastically reduces computational overhead, but also improves performance for high precision tasks and robustness to unseen distractors. Together, these findings suggest that human-inspired visual processing offers a useful inductive bias for robotic vision systems. https://ian-chuang.github.io/gaze-av-aloha/
- Abstract(参考訳): 人間の視覚は視線によって駆動される非常に活発なプロセスであり、注意と固定をタスク関連領域に向け、視覚処理を劇的に削減する。
対照的に、ロボット学習システムは一般的に、生のカメラ画像の受動的で均一な処理に依存している。
本研究では,ロボット政策に人間のような活動的視線を取り入れることで,効率と性能を両立させる方法について検討する。
そこで我々は,人間の頭部の動きと視線追跡の両方をエミュレートする能動ビジョンロボットシステムに適用した。
AV-ALOHAロボットシミュレーションプラットフォームにおける先行研究を拡張し、人間の視線を取り入れたロボットポリシーをトレーニングするためのシミュレーションベンチマークとデータセットとともに、人間のオペレーターから視線追跡データとロボットデモを同時に収集するフレームワークを導入する。
ロボット学習においてビジョントランスフォーマー(ViT)が広く用いられていることを踏まえ、画像セグメンテーションにおける最近の研究に触発されたファーベイトパッチトークン化方式を用いて、視線情報をViTに統合する。
均一なパッチトークン化と比較して、これはトークンの数を大幅に減らし、したがって関心のある領域の近くで視覚的忠実さを犠牲にすることなく計算する。
また、人間のデータから模倣や予測を見つめる2つのアプローチについても検討する。
第1のモデルは2段階のモデルで、前景と行動の誘導を予測し、第2のモデルは視線をアクション空間に統合し、ポリシーは視線と行動の終末を共同で予測する。
提案手法は, 計算オーバーヘッドを大幅に削減するだけでなく, 高精度タスクの性能向上や, 邪魔者に対する堅牢性の向上も図っている。
これらの結果は、人間にインスパイアされた視覚処理が、ロボットビジョンシステムに有用な誘導バイアスをもたらすことを示唆している。
https://ian-chuang.github.io/gaze-av-aloha/
関連論文リスト
- Visual IRL for Human-Like Robotic Manipulation [5.167226775583172]
本研究では,協調ロボット(コボット)が操作タスクを学習し,それを人間的な方法で実行するための新しい手法を提案する。
本手法は,ロボットが人間の行動を観察してタスクの実行を学習する,LfO(Learning-from-observation)パラダイムに該当する。
2つの異なる現実的な操作課題に対して,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-12-16T01:23:13Z) - Prediction with Action: Visual Policy Learning via Joint Denoising Process [14.588908033404474]
PADは、画像予測とロボットアクションを統合する視覚ポリシー学習フレームワークである。
DiTは画像とロボット状態をシームレスに統合し、将来の画像とロボット動作の同時予測を可能にする。
Padは従来の手法よりも優れており、Metaworldのベンチマークで26.3%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T09:54:58Z) - Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。
実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文 参考訳(メタデータ) (2024-07-26T17:59:52Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。