論文の概要: Learning Affordance Landscapes for Interaction Exploration in 3D
Environments
- arxiv url: http://arxiv.org/abs/2008.09241v2
- Date: Mon, 19 Oct 2020 02:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:36:55.162495
- Title: Learning Affordance Landscapes for Interaction Exploration in 3D
Environments
- Title(参考訳): 3次元環境におけるインタラクション探索のための景観学習
- Authors: Tushar Nagarajan and Kristen Grauman
- Abstract要約: エージェントは環境の仕組みを習得できなければならない。
相互作用探索のための強化学習手法を提案する。
AI2-iTHORで私たちのアイデアを実証します。
- 参考スコア(独自算出の注目度): 101.90004767771897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents operating in human spaces must be able to master how their
environment works: what objects can the agent use, and how can it use them? We
introduce a reinforcement learning approach for exploration for interaction,
whereby an embodied agent autonomously discovers the affordance landscape of a
new unmapped 3D environment (such as an unfamiliar kitchen). Given an
egocentric RGB-D camera and a high-level action space, the agent is rewarded
for maximizing successful interactions while simultaneously training an
image-based affordance segmentation model. The former yields a policy for
acting efficiently in new environments to prepare for downstream interaction
tasks, while the latter yields a convolutional neural network that maps image
regions to the likelihood they permit each action, densifying the rewards for
exploration. We demonstrate our idea with AI2-iTHOR. The results show agents
can learn how to use new home environments intelligently and that it prepares
them to rapidly address various downstream tasks like "find a knife and put it
in the drawer." Project page:
http://vision.cs.utexas.edu/projects/interaction-exploration/
- Abstract(参考訳): 人間の空間で動作する具体化されたエージェントは、その環境がどのように機能するかを習得する必要がある。
そこで,エージェントは,新しい未熟な3d環境(不慣れなキッチンなど)を自律的に発見する,インタラクションの探索のための強化学習手法を提案する。
エゴセントリックなRGB-Dカメラと高レベルなアクション空間を与えられたエージェントは、画像ベースのアベイランスセグメンテーションモデルを同時にトレーニングしながら、良好なインタラクションを最大化する。
前者は下流のインタラクションタスクの準備のために、新しい環境で効率的に行動するためのポリシーを与え、後者は画像領域をそれぞれのアクションを許容する可能性にマッピングする畳み込みニューラルネットワークを生成し、探索のための報酬を減少させる。
AI2-iTHORで私たちのアイデアを実証します。
その結果、エージェントはインテリジェントに新しいホーム環境の使い方を学習でき、「ナイフを見つけて引き出しに入れる」といった下流の様々なタスクに素早く対処できることがわかった。
プロジェクトページ: http://vision.cs.utexas.edu/projects/interaction-exploration/
関連論文リスト
- Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Learning Hierarchical Interactive Multi-Object Search for Mobile
Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。
これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。
本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文 参考訳(メタデータ) (2023-07-12T12:25:33Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Creating Multimodal Interactive Agents with Imitation and
Self-Supervised Learning [20.02604302565522]
SFからの一般的なビジョンは、ロボットはいつか私たちの物理的空間に住み、世界は私たちのように感じ、肉体労働を補助し、自然言語を通して私たちとコミュニケーションする、ということだ。
本稿では,仮想環境の単純化により人間と自然に対話できる人工エージェントを設計する方法について検討する。
シミュレーションされた世界における人間と人間の相互作用の模倣学習は、自己指導型学習と合わせて、多モーダルな対話型エージェントを作るのに十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T15:17:27Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - Out of the Box: Embodied Navigation in the Real World [45.97756658635314]
シミュレーションで得られた知識を現実世界に伝達する方法を示す。
モデルは1台のIntel RealSenseカメラを搭載したLoCoBotにデプロイします。
本実験では,得られたモデルを実世界に展開することで,満足のいく結果が得られることを示した。
論文 参考訳(メタデータ) (2021-05-12T18:00:14Z) - Environment Predictive Coding for Embodied Agents [92.31905063609082]
本稿では,環境レベルの表現を具体化エージェントに学習する自己教師型手法である環境予測符号化を導入する。
GibsonとMatterport3Dのフォトリアリスティックな3D環境に関する実験により、我々の手法は、限られた経験の予算しか持たない課題において、最先端の課題よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-03T23:43:16Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z) - Learning Object Placements For Relational Instructions by Hallucinating
Scene Representations [26.897316325189205]
単一入力画像から空間関係の集合に対する画素単位の物体配置確率を推定するための畳み込みニューラルネットワークを提案する。
本手法では,オブジェクトの画素関係確率や3次元モデルに対して,地上の真理データを必要としない。
実世界のデータと人間ロボット実験を用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-01-23T12:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。