論文の概要: Spatial Action Maps for Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2004.09141v2
- Date: Thu, 4 Jun 2020 10:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:36:23.637630
- Title: Spatial Action Maps for Mobile Manipulation
- Title(参考訳): 移動操作のための空間行動マップ
- Authors: Jimmy Wu, Xingyuan Sun, Andy Zeng, Shuran Song, Johnny Lee, Szymon
Rusinkiewicz, Thomas Funkhouser
- Abstract要約: 状態と同じドメインで定義された高密度なアクション表現で学習することが有利であることを示す。
本稿では,可能なアクションの集合をピクセルマップで表現する「空間的アクションマップ」を提案する。
空間行動マップで学習したポリシーは、従来の代替手段よりもはるかに優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 30.018835572458844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typical end-to-end formulations for learning robotic navigation involve
predicting a small set of steering command actions (e.g., step forward, turn
left, turn right, etc.) from images of the current state (e.g., a bird's-eye
view of a SLAM reconstruction). Instead, we show that it can be advantageous to
learn with dense action representations defined in the same domain as the
state. In this work, we present "spatial action maps," in which the set of
possible actions is represented by a pixel map (aligned with the input image of
the current state), where each pixel represents a local navigational endpoint
at the corresponding scene location. Using ConvNets to infer spatial action
maps from state images, action predictions are thereby spatially anchored on
local visual features in the scene, enabling significantly faster learning of
complex behaviors for mobile manipulation tasks with reinforcement learning. In
our experiments, we task a robot with pushing objects to a goal location, and
find that policies learned with spatial action maps achieve much better
performance than traditional alternatives.
- Abstract(参考訳): ロボットナビゲーションを学ぶための典型的なエンドツーエンドの定式化は、現在の状態の画像(SLAM再構成の鳥眼図など)から小さな操舵コマンドアクション(例えば、前進、左旋回、右旋回など)を予測することである。
その代わりに、状態と同じドメインで定義された高密度なアクション表現で学ぶことが有利であることを示す。
本研究では,現在状態の入力画像と一致した)画素マップで可能なアクションの集合を表現し,各画素が対応するシーン位置における局所的なナビゲーション終端を表す「空間行動マップ」を提案する。
状態画像から空間的行動マップを推測するためにConvNetsを使用すると、アクション予測はシーン内の局所的な視覚的特徴に空間的に固定され、強化学習によるモバイル操作タスクの複雑な動作の学習が大幅に高速化される。
実験では,対象を目標位置まで押し上げるロボットにタスクを課し,空間的アクションマップで学習したポリシーが従来の方法よりもはるかに優れたパフォーマンスを実現することを見出した。
関連論文リスト
- Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Sparse Image based Navigation Architecture to Mitigate the need of
precise Localization in Mobile Robots [3.1556608426768324]
本稿では,スパース画像を用いた自律走行を追求する移動ロボットの正確な位置決めの必要性を軽減することに焦点を当てる。
提案手法は,教師なし学習のためのモデルアーキテクチャであるRoomNetで構成され,環境の粗い同定を行う。
後者はスパース画像マッチングを用いて、マッピングおよびトレーニング段階においてロボットが見たフレームをvis-a-visで達成したフレームの類似性を特徴付ける。
論文 参考訳(メタデータ) (2022-03-29T06:38:18Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z) - Learning Synthetic to Real Transfer for Localization and Navigational
Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。
この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。
ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文 参考訳(メタデータ) (2020-11-20T08:37:03Z) - Unsupervised Domain Adaptation for Visual Navigation [115.85181329193092]
視覚ナビゲーションのための教師なし領域適応手法を提案する。
本手法では,対象領域の画像をソース領域に変換し,ナビゲーションポリシで学習した表現と一致するようにする。
論文 参考訳(メタデータ) (2020-10-27T18:22:43Z) - Latent Space Roadmap for Visual Action Planning of Deformable and Rigid
Object Manipulation [74.88956115580388]
プランニングは、イメージを埋め込んだ低次元の潜在状態空間で行われる。
我々のフレームワークは2つの主要なコンポーネントで構成されており、画像のシーケンスとして視覚的な計画を生成するビジュアル・フォレスト・モジュール(VFM)と、それら間のアクションを予測するアクション・プロポーザル・ネットワーク(APN)である。
論文 参考訳(メタデータ) (2020-03-19T18:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。