論文の概要: ManipulaTHOR: A Framework for Visual Object Manipulation
- arxiv url: http://arxiv.org/abs/2104.11213v1
- Date: Thu, 22 Apr 2021 17:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 14:08:23.836812
- Title: ManipulaTHOR: A Framework for Visual Object Manipulation
- Title(参考訳): manipulathor: ビジュアルオブジェクト操作のためのフレームワーク
- Authors: Kiana Ehsani, Winson Han, Alvaro Herrasti, Eli VanderBilt, Luca Weihs,
Eric Kolve, Aniruddha Kembhavi, Roozbeh Mottaghi
- Abstract要約: 物理対応で視覚的に豊かなAI2-THORフレームワーク上に構築されたオブジェクト操作のためのフレームワークを提案する。
このタスクは、一般的なポイントナビゲーションタスクをオブジェクト操作に拡張し、3D障害物回避を含む新しい課題を提供する。
- 参考スコア(独自算出の注目度): 27.17908758246059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The domain of Embodied AI has recently witnessed substantial progress,
particularly in navigating agents within their environments. These early
successes have laid the building blocks for the community to tackle tasks that
require agents to actively interact with objects in their environment. Object
manipulation is an established research domain within the robotics community
and poses several challenges including manipulator motion, grasping and
long-horizon planning, particularly when dealing with oft-overlooked practical
setups involving visually rich and complex scenes, manipulation using mobile
agents (as opposed to tabletop manipulation), and generalization to unseen
environments and objects. We propose a framework for object manipulation built
upon the physics-enabled, visually rich AI2-THOR framework and present a new
challenge to the Embodied AI community known as ArmPointNav. This task extends
the popular point navigation task to object manipulation and offers new
challenges including 3D obstacle avoidance, manipulating objects in the
presence of occlusion, and multi-object manipulation that necessitates long
term planning. Popular learning paradigms that are successful on PointNav
challenges show promise, but leave a large room for improvement.
- Abstract(参考訳): Embodied AIのドメインは、特に環境内のエージェントのナビゲートにおいて、非常に進歩している。
これらの初期の成功は、エージェントが環境内のオブジェクトと活発に対話する必要があるタスクに取り組むための、コミュニティのためのビルディングブロックを形成しました。
オブジェクト操作はロボットコミュニティ内で確立された研究領域であり、特に視覚的に豊かで複雑なシーンを含む見過ごされた現実的なセットアップを扱う際には、マニピュレータの動き、把握、長期水平計画、(テーブルトップ操作とは対照的に)移動エージェントを使った操作、そして見えない環境やオブジェクトへの一般化など、いくつかの課題を提起している。
我々は、物理対応で視覚的にリッチなAI2-THORフレームワーク上に構築されたオブジェクト操作のためのフレームワークを提案し、ArmPointNavとして知られるEmbodied AIコミュニティに新しい課題を提示する。
このタスクは、一般的なポイントナビゲーションタスクをオブジェクト操作に拡張し、3次元障害物回避、オクルージョンの存在下でオブジェクトを操作すること、長期計画を必要とする複数オブジェクト操作を含む新しい課題を提供する。
PointNavの課題で成功した一般的な学習パラダイムは、有望だが、改善の余地は大きい。
関連論文リスト
- Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - UniTeam: Open Vocabulary Mobile Manipulation Challenge [4.523096223190858]
このレポートでは、"HomeRobot: Open Vocabulary Mobile Manipulation"チャレンジのベースラインを改良したUniTeamエージェントを紹介します。
この課題は、慣れない環境でのナビゲーション、新しいオブジェクトの操作、オープン語彙オブジェクトクラスの認識の問題を引き起こす。
この課題は、機械学習、コンピュータビジョン、自然言語、ロボット工学の最近の進歩を利用して、AIを具現化した横断的な研究を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-14T02:24:29Z) - Learning Hierarchical Interactive Multi-Object Search for Mobile
Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。
これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。
本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文 参考訳(メタデータ) (2023-07-12T12:25:33Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile
Manipulation [16.79185733369416]
未知の環境下における大型関節オブジェクトとの自律的相互作用のための2段階アーキテクチャを提案する。
第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。
第2段階は、生成した運動計画に沿ってオブジェクトを操作する全身運動制御装置からなる。
論文 参考訳(メタデータ) (2021-03-18T21:32:18Z) - A Long Horizon Planning Framework for Manipulating Rigid Pointcloud
Objects [25.428781562909606]
本稿では,剛体物体の操作に伴う長期計画問題の解決のための枠組みを提案する。
提案手法はオブジェクトサブゴールの空間における計画であり,ロボットとオブジェクトの相互作用のダイナミクスに関する推論からプランナーを解放する。
論文 参考訳(メタデータ) (2020-11-16T18:59:33Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。