論文の概要: Look Ma, No Hands! Agent-Environment Factorization of Egocentric Videos
- arxiv url: http://arxiv.org/abs/2305.16301v1
- Date: Thu, 25 May 2023 17:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:12:20.531547
- Title: Look Ma, No Hands! Agent-Environment Factorization of Egocentric Videos
- Title(参考訳): 手を出さないで!
エゴセントリックビデオのエージェント環境因子化
- Authors: Matthew Chang, Aditya Prakash, Saurabh Gupta
- Abstract要約: エージェント(人間の手)と環境を分離するシーンの因子的表現を抽出することを提案する。
本実験は,エゴセントリックビデオの塗装品質向上におけるVIDMの有効性を実証するものである。
- 参考スコア(独自算出の注目度): 21.537003797760928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The analysis and use of egocentric videos for robotic tasks is made
challenging by occlusion due to the hand and the visual mismatch between the
human hand and a robot end-effector. In this sense, the human hand presents a
nuisance. However, often hands also provide a valuable signal, e.g. the hand
pose may suggest what kind of object is being held. In this work, we propose to
extract a factored representation of the scene that separates the agent (human
hand) and the environment. This alleviates both occlusion and mismatch while
preserving the signal, thereby easing the design of models for downstream
robotics tasks. At the heart of this factorization is our proposed Video
Inpainting via Diffusion Model (VIDM) that leverages both a prior on real-world
images (through a large-scale pre-trained diffusion model) and the appearance
of the object in earlier frames of the video (through attention). Our
experiments demonstrate the effectiveness of VIDM at improving inpainting
quality on egocentric videos and the power of our factored representation for
numerous tasks: object detection, 3D reconstruction of manipulated objects, and
learning of reward functions, policies, and affordances from videos.
- Abstract(参考訳): ロボットタスクにおけるエゴセントリックビデオの分析と利用は、手とロボットのエンドエフェクタの視覚ミスマッチによる咬合による課題となっている。
この意味では、人間の手は迷惑を与える。
しかし、しばしば手は貴重な信号を与え、例えば手ポーズはどんな種類の物体が保持されているかを示唆する。
本研究では,エージェント(人間の手)と環境を分離するシーンの因子的表現を抽出することを提案する。
これにより、信号の保存中にオクルージョンとミスマッチの両方を緩和し、下流ロボット作業のためのモデルの設計を緩和する。
この因子化の核心は、従来の実世界の画像(大規模な事前学習拡散モデル)と、ビデオの以前のフレームにおけるオブジェクトの出現(注意)の両方を活用する、Diffusion Model (VIDM) である。
実験では,物体検出,操作対象の3次元再構成,報酬関数の学習,映像のポリシー,手頃さの学習など,自己中心型ビデオの質向上と要素表現の能力について,VIDMの有効性を実証した。
関連論文リスト
- EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos [9.340890244344497]
2次元手の位置を予測するための既存の手法は視覚的表現に依存しており、主に手動物体の相互作用に焦点を当てている。
本研究では,エゴモーション認識と一般化可能な2次元手指予測手法であるEMAGを提案する。
我々のモデルは、データセット間の評価において、事前メソッドを7.0$%上回る。
論文 参考訳(メタデータ) (2024-05-30T13:15:18Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [88.25603931962071]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、エゴセントリックな視点からのインタラクションの総合的な3D理解が重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Signs of Language: Embodied Sign Language Fingerspelling Acquisition
from Demonstrations for Human-Robot Interaction [1.0166477175169308]
本稿では,ビデオ例からデキスタスモータの模倣を学習する手法を提案する。
まず,関節に1つのアクチュエータを備えたロボットハンドのURDFモデルを構築した。
トレーニング済みのディープビジョンモデルを利用して、RGBビデオから手の3Dポーズを抽出する。
論文 参考訳(メタデータ) (2022-09-12T10:42:26Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - DexVIP: Learning Dexterous Grasping with Human Hand Pose Priors from
Video [86.49357517864937]
DexVIPは,人間と物体のインタラクションビデオから,器用なロボットの把握を学習する手法である。
我々は、人間とオブジェクトのインタラクションビデオから把握した画像をキュレートし、エージェントの手のポーズに先行する。
DexVIPは、手ポーズの無い既存のアプローチや、特殊な遠隔操作機器に頼っている既存のアプローチと良好に比較できることを実証する。
論文 参考訳(メタデータ) (2022-02-01T00:45:57Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - Shaping embodied agent behavior with activity-context priors from
egocentric video [102.0541532564505]
そこで我々は,人間の着用カメラで撮影した野生の自我中心の映像から,アクティビティ・コンテクストの先行情報を発見するためのアプローチを提案する。
我々は,ビデオの先行を補助報酬関数としてエンコードし,エージェントが対話を試みる前に,互換性のあるオブジェクトをまとめるように促す。
我々は,AI2-iTHORの様々な複雑なタスクを行う仮想家庭ロボットエージェントに利益をもたらすために,記述されていないキッチン活動を行う人々のエゴセントリックEPIC-Kitchensビデオを用いて,私たちのアイデアを実証する。
論文 参考訳(メタデータ) (2021-10-14T20:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。