論文の概要: Shaping embodied agent behavior with activity-context priors from
egocentric video
- arxiv url: http://arxiv.org/abs/2110.07692v1
- Date: Thu, 14 Oct 2021 20:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 15:27:08.910311
- Title: Shaping embodied agent behavior with activity-context priors from
egocentric video
- Title(参考訳): エゴセントリックビデオからのアクティビティ・コンテクスト前のエンボディード・エージェントの挙動
- Authors: Tushar Nagarajan and Kristen Grauman
- Abstract要約: そこで我々は,人間の着用カメラで撮影した野生の自我中心の映像から,アクティビティ・コンテクストの先行情報を発見するためのアプローチを提案する。
我々は,ビデオの先行を補助報酬関数としてエンコードし,エージェントが対話を試みる前に,互換性のあるオブジェクトをまとめるように促す。
我々は,AI2-iTHORの様々な複雑なタスクを行う仮想家庭ロボットエージェントに利益をもたらすために,記述されていないキッチン活動を行う人々のエゴセントリックEPIC-Kitchensビデオを用いて,私たちのアイデアを実証する。
- 参考スコア(独自算出の注目度): 102.0541532564505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex physical tasks entail a sequence of object interactions, each with
its own preconditions -- which can be difficult for robotic agents to learn
efficiently solely through their own experience. We introduce an approach to
discover activity-context priors from in-the-wild egocentric video captured
with human worn cameras. For a given object, an activity-context prior
represents the set of other compatible objects that are required for activities
to succeed (e.g., a knife and cutting board brought together with a tomato are
conducive to cutting). We encode our video-based prior as an auxiliary reward
function that encourages an agent to bring compatible objects together before
attempting an interaction. In this way, our model translates everyday human
experience into embodied agent skills. We demonstrate our idea using egocentric
EPIC-Kitchens video of people performing unscripted kitchen activities to
benefit virtual household robotic agents performing various complex tasks in
AI2-iTHOR, significantly accelerating agent learning. Project page:
http://vision.cs.utexas.edu/projects/ego-rewards/
- Abstract(参考訳): 複雑な物理的タスクには、それぞれが自身の前提条件を持つ一連のオブジェクトの相互作用が含まれており、ロボットエージェントが自身の経験だけで効率的に学習することは困難である。
そこで我々は,人間の着用カメラで撮影した野生の自我中心の映像から,行動コンテキストの先行点を発見する手法を提案する。
与えられた対象に対して、アクティビティ・コンテクストは、成功するために要求される他の互換オブジェクトの集合を表す(例えば、トマトと一緒に持ち込まれたナイフと切削板は、切断に寄与する)。
我々は,ビデオの先行を補助報酬関数としてエンコードし,エージェントが対話を試みる前に,互換性のあるオブジェクトをまとめることを促す。
このようにして、我々のモデルは日常の人間体験をエンボディエージェントスキルに変換する。
我々は,AI2-iTHORの様々な複雑なタスクを行う仮想家庭ロボットエージェントに利益をもたらすために,非記述型キッチン活動を行う人々のエゴセントリックEPIC-Kitchensビデオを用いて,我々のアイデアを実証した。
プロジェクトページ: http://vision.cs.utexas.edu/projects/ego-rewards/
関連論文リスト
- A Backpack Full of Skills: Egocentric Video Understanding with Diverse
Task Perspectives [5.515192437680944]
人間の行動の共有時間モデリングを最小限のオーバーヘッドで組み合わせたビデオ理解への統一的アプローチを模索する。
EgoPackは、下流のタスクにまたがって実行され、追加の洞察源となる可能性のあるタスクパースペクティブのコレクションを作成するソリューションである。
提案手法の有効性と効率を4つのEgo4Dベンチマークで示す。
論文 参考訳(メタデータ) (2024-03-05T15:18:02Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文 参考訳(メタデータ) (2022-12-13T00:47:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - Creating Multimodal Interactive Agents with Imitation and
Self-Supervised Learning [20.02604302565522]
SFからの一般的なビジョンは、ロボットはいつか私たちの物理的空間に住み、世界は私たちのように感じ、肉体労働を補助し、自然言語を通して私たちとコミュニケーションする、ということだ。
本稿では,仮想環境の単純化により人間と自然に対話できる人工エージェントを設計する方法について検討する。
シミュレーションされた世界における人間と人間の相互作用の模倣学習は、自己指導型学習と合わせて、多モーダルな対話型エージェントを作るのに十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T15:17:27Z) - Learning Visually Guided Latent Actions for Assistive Teleoperation [9.75385535829762]
視覚入力に潜伏埋め込みを条件とした補助ロボットを開発。
少量の安価で収集しやすい構造データに予め訓練されたオブジェクト検出器を組み込むことにより、i)現在のコンテキストを正確に認識し、ii)新しいオブジェクトやタスクへの制御埋め込みを一般化する。
論文 参考訳(メタデータ) (2021-05-02T23:58:28Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - The MECCANO Dataset: Understanding Human-Object Interactions from
Egocentric Videos in an Industrial-like Domain [20.99718135562034]
我々は,産業的な環境下での人間と物体の相互作用を研究するための,エゴセントリックビデオの最初のデータセットであるMECCANOを紹介した。
このデータセットは、人間とオブジェクトの相互作用をエゴセントリックな視点から認識するタスクのために明示的にラベル付けされている。
ベースラインの結果から,MECCANOデータセットは,産業的なシナリオにおける自我中心の人間とオブジェクトの相互作用を研究する上で,困難なベンチマークであることが示された。
論文 参考訳(メタデータ) (2020-10-12T12:50:30Z) - Learning Affordance Landscapes for Interaction Exploration in 3D
Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。
相互作用探索のための強化学習手法を提案する。
AI2-iTHORで私たちのアイデアを実証します。
論文 参考訳(メタデータ) (2020-08-21T00:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。