Fugu-MT 論文翻訳(概要): Look Closer: Bridging Egocentric and Third-Person Views with Transformers for Robotic Manipulation

論文の概要: Look Closer: Bridging Egocentric and Third-Person Views with Transformers for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2201.07779v2
Date: Thu, 20 Jan 2022 10:12:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-21 13:01:54.215308
Title: Look Closer: Bridging Egocentric and Third-Person Views with Transformers for Robotic Manipulation
Title（参考訳）: ロボット操作のためのトランスフォーマーでエゴセントリックとパーソナライズを橋渡し
Authors: Rishabh Jangir, Nicklas Hansen, Sambaran Ghosal, Mohit Jain, Xiaolong Wang
Abstract要約: 視覚フィードバックから精度に基づく操作タスクを解くことは、従来のロボットシステムに必要なエンジニアリング労力を大幅に削減する可能性がある。ロボットの手首に装着した3人称カメラと自我中心カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。また,両カメラの視覚情報を効果的に融合するために,クロスビューアテンション機構を備えたトランスフォーマーを提案する。
参考スコア（独自算出の注目度）: 15.632809977544907
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning to solve precision-based manipulation tasks from visual feedback using Reinforcement Learning (RL) could drastically reduce the engineering efforts required by traditional robot systems. However, performing fine-grained motor control from visual inputs alone is challenging, especially with a static third-person camera as often used in previous work. We propose a setting for robotic manipulation in which the agent receives visual feedback from both a third-person camera and an egocentric camera mounted on the robot's wrist. While the third-person camera is static, the egocentric camera enables the robot to actively control its vision to aid in precise manipulation. To fuse visual information from both cameras effectively, we additionally propose to use Transformers with a cross-view attention mechanism that models spatial attention from one view to another (and vice-versa), and use the learned features as input to an RL policy. Our method improves learning over strong single-view and multi-view baselines, and successfully transfers to a set of challenging manipulation tasks on a real robot with uncalibrated cameras, no access to state information, and a high degree of task variability. In a hammer manipulation task, our method succeeds in 75% of trials versus 38% and 13% for multi-view and single-view baselines, respectively.
Abstract（参考訳）: 強化学習(rl)を用いた視覚フィードバックによる精度に基づく操作課題の解法は、従来のロボットシステムに必要な工学的労力を大幅に削減することができる。しかし、視覚入力だけできめ細かい運動制御を行うことは、特に以前の作業でよく使われる静的な3人称カメラでは困難である。本稿では,エージェントがロボットの手首に装着した自己中心カメラと第三者カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。 3人称カメラは静的だが、エゴセントリックカメラはロボットが視覚を積極的に制御し、正確な操作を支援する。また,両カメラからの視覚情報を効果的に融合するために,空間的注意を一つの視点から他の視点へモデル化し,学習した特徴をrlポリシーの入力として利用するクロスビュー注意機構を備えたトランスフォーマを提案する。本手法は,単視点および多視点のベースライン上での学習を向上し,非対応カメラを用いた実ロボット上での課題操作タスクのセットへの転送,状態情報へのアクセスの不要,タスク変動度の向上を実現した。ハンマー操作タスクでは,実験の75%で成功し,マルチビューベースラインでは38%,シングルビューベースラインでは13%であった。

関連論文リスト

Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers [1.1031714356680165]
人間の視覚は視線によって駆動される非常に活発なプロセスであり、注意と固定をタスク関連領域に向ける。本研究では,ロボット政策に人間のようなアクティブな視線を取り入れることで,効率と性能を両立させる方法について検討する。
論文参考訳（メタデータ） (2025-07-21T17:44:10Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Open-TeleVision: Teleoperation with Immersive Active Visual Feedback [17.505318269362512]
Open-TeleVisionは、オペレーターが立体的にロボットの周囲を積極的に知覚することを可能にする。このシステムは操作者の腕と手の動きをロボットに反映し、没入感のある体験を作り出す。本システムの有効性は,長期的かつ正確な4つの課題に対して,データ収集と模倣学習ポリシーの訓練によって検証する。
論文参考訳（メタデータ） (2024-07-01T17:55:35Z)
Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。 ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文参考訳（メタデータ） (2024-05-30T17:56:54Z)
Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文参考訳（メタデータ） (2023-10-04T17:59:38Z)
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文参考訳（メタデータ） (2023-07-12T07:04:53Z)
Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。提案手法の有効性を様々なシナリオで示す。また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文参考訳（メタデータ） (2023-02-05T15:37:02Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)
From One Hand to Multiple Hands: Imitation Learning for Dexterous Manipulation from Single-Camera Teleoperation [26.738893736520364]
我々は,iPadとコンピュータのみで3Dデモを効率的に収集する,新しい単一カメラ遠隔操作システムを提案する。我々は,操作者の手の構造と形状が同じであるマニピュレータである物理シミュレータにおいて,各ユーザ向けにカスタマイズされたロボットハンドを構築する。データを用いた模倣学習では、複数の複雑な操作タスクでベースラインを大幅に改善する。
論文参考訳（メタデータ） (2022-04-26T17:59:51Z)
Scene Editing as Teleoperation: A Case Study in 6DoF Kit Assembly [18.563562557565483]
遠隔操作によるシーン編集(SEaT)の枠組みを提案する。ロボットを制御する代わりに、ユーザーはタスクのゴールを指定することに集中する。ユーザは、ロボットハードウェアの専門知識を必要とせずに遠隔操作を行うことができる。
論文参考訳（メタデータ） (2021-10-09T04:22:21Z)
Morphology-Agnostic Visual Robotic Control [76.44045983428701]
MAVRICは、ロボットの形態に関する最小限の知識で機能するアプローチである。本稿では,視覚誘導型3Dポイントリーチ,軌道追従,ロボットとロボットの模倣について紹介する。
論文参考訳（メタデータ） (2019-12-31T15:45:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。