論文の概要: Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop
- arxiv url: http://arxiv.org/abs/2506.10968v1
- Date: Thu, 12 Jun 2025 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.900379
- Title: Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop
- Title(参考訳): 目とロボット:BC-RLの知覚-行動ループで行動を学ぶ
- Authors: Justin Kerr, Kush Hari, Ethan Weber, Chung Min Kim, Brent Yi, Tyler Bonnen, Ken Goldberg, Angjoo Kanazawa,
- Abstract要約: EyeRobotは、現実世界のタスクを完了する必要から生じる視線行動を備えたロボットシステムである。
我々は、周囲を自由に回転させて観察し、強化学習を用いて視線ポリシーを訓練できるメカニカルアイボールを開発した。
我々は,ロボットアームを囲む弧の操作を必要とする5つのパノラマワークスペース操作タスクに対して,EyeRobotを評価した。
- 参考スコア(独自算出の注目度): 37.5231371254634
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Humans do not passively observe the visual world -- we actively look in order to act. Motivated by this principle, we introduce EyeRobot, a robotic system with gaze behavior that emerges from the need to complete real-world tasks. We develop a mechanical eyeball that can freely rotate to observe its surroundings and train a gaze policy to control it using reinforcement learning. We accomplish this by first collecting teleoperated demonstrations paired with a 360 camera. This data is imported into a simulation environment that supports rendering arbitrary eyeball viewpoints, allowing episode rollouts of eye gaze on top of robot demonstrations. We then introduce a BC-RL loop to train the hand and eye jointly: the hand (BC) agent is trained from rendered eye observations, and the eye (RL) agent is rewarded when the hand produces correct action predictions. In this way, hand-eye coordination emerges as the eye looks towards regions which allow the hand to complete the task. EyeRobot implements a foveal-inspired policy architecture allowing high resolution with a small compute budget, which we find also leads to the emergence of more stable fixation as well as improved ability to track objects and ignore distractors. We evaluate EyeRobot on five panoramic workspace manipulation tasks requiring manipulation in an arc surrounding the robot arm. Our experiments suggest EyeRobot exhibits hand-eye coordination behaviors which effectively facilitate manipulation over large workspaces with a single camera. See project site for videos: https://www.eyerobot.net/
- Abstract(参考訳): 人間は視覚の世界を受動的に観察しない。
この原理に動機づけられたEyeRobotは、現実世界のタスクを完了する必要から生じる視線行動を持つロボットシステムである。
我々は、周囲を自由に回転させて観察し、強化学習を用いて視線ポリシーを訓練できるメカニカルアイボールを開発した。
まず、360度カメラと組み合わせた遠隔操作デモを収集する。
このデータは、任意の眼球視点のレンダリングをサポートするシミュレーション環境にインポートされ、ロボットのデモンストレーションの上に視線のエピソードロールアウトを可能にする。
次に、手と眼を共同で訓練するためのBC-RLループを導入し、手(BC)エージェントをレンダリングされた眼の観察から訓練し、手(RL)エージェントが正しい行動予測を行うと、眼(RL)エージェントを報奨する。
このように、目がタスクを完了させる領域に目を向けるにつれて、手目調整が出現する。
EyeRobotは、小さな計算予算で高解像度を実現するために、フォビアインスパイアされたポリシーアーキテクチャを実装しています。
我々は,ロボットアームを囲む弧の操作を必要とする5つのパノラマワークスペース操作タスクに対して,EyeRobotを評価した。
実験の結果,EyeRobotは眼球の協調動作を示し,単一のカメラで作業空間を効果的に操作できることが示唆された。
ビデオのプロジェクトサイト(https://www.eyerobot.net/)を参照。
関連論文リスト
- VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Open-TeleVision: Teleoperation with Immersive Active Visual Feedback [17.505318269362512]
Open-TeleVisionは、オペレーターが立体的にロボットの周囲を積極的に知覚することを可能にする。
このシステムは操作者の腕と手の動きをロボットに反映し、没入感のある体験を作り出す。
本システムの有効性は,長期的かつ正確な4つの課題に対して,データ収集と模倣学習ポリシーの訓練によって検証する。
論文 参考訳(メタデータ) (2024-07-01T17:55:35Z) - Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。
ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-30T17:56:54Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Look Closer: Bridging Egocentric and Third-Person Views with
Transformers for Robotic Manipulation [15.632809977544907]
視覚フィードバックから精度に基づく操作タスクを解くことは、従来のロボットシステムに必要なエンジニアリング労力を大幅に削減する可能性がある。
ロボットの手首に装着した3人称カメラと自我中心カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。
また,両カメラの視覚情報を効果的に融合するために,クロスビューアテンション機構を備えたトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2022-01-19T18:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。