論文の概要: Sim-to-Real Transfer for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2011.03807v1
- Date: Sat, 7 Nov 2020 16:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:15:08.822235
- Title: Sim-to-Real Transfer for Vision-and-Language Navigation
- Title(参考訳): ヴィジュアル・アンド・ランゲージナビゲーションのためのシミュレート・トゥ・リアルトランスファー
- Authors: Peter Anderson, Ayush Shrivastava, Joanne Truong, Arjun Majumdar, Devi
Parikh, Dhruv Batra, Stefan Lee
- Abstract要約: 本研究では,従来は目に見えなかった環境下でロボットを解放し,制約のない自然言語ナビゲーション指示に従うという課題について検討する。
VLN(Vision-and-Language Navigation)の課題に関する最近の研究は、シミュレーションにおいて大きな進歩を遂げている。
ロボット工学における本研究の意義を評価するため,シミュレーションで訓練されたVLNエージェントを物理ロボットに転送する。
- 参考スコア(独自算出の注目度): 70.86250473583354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the challenging problem of releasing a robot in a previously unseen
environment, and having it follow unconstrained natural language navigation
instructions. Recent work on the task of Vision-and-Language Navigation (VLN)
has achieved significant progress in simulation. To assess the implications of
this work for robotics, we transfer a VLN agent trained in simulation to a
physical robot. To bridge the gap between the high-level discrete action space
learned by the VLN agent, and the robot's low-level continuous action space, we
propose a subgoal model to identify nearby waypoints, and use domain
randomization to mitigate visual domain differences. For accurate sim and real
comparisons in parallel environments, we annotate a 325m2 office space with
1.3km of navigation instructions, and create a digitized replica in simulation.
We find that sim-to-real transfer to an environment not seen in training is
successful if an occupancy map and navigation graph can be collected and
annotated in advance (success rate of 46.8% vs. 55.9% in sim), but much more
challenging in the hardest setting with no prior mapping at all (success rate
of 22.5%).
- Abstract(参考訳): 本研究では,従来は目に見えなかった環境下でロボットをリリースし,制約のない自然言語ナビゲーション指示に従うという課題について検討する。
視覚言語ナビゲーション(vln)タスクに関する最近の研究は、シミュレーションにおいて著しい進歩を遂げている。
ロボット工学における本研究の意義を評価するため,シミュレーションで訓練されたVLNエージェントを物理ロボットに転送する。
VLNエージェントが学習する高レベル離散行動空間とロボットの低レベル連続行動空間とのギャップを埋めるため、近辺の経路点を識別し、領域ランダム化を用いて視覚領域の違いを緩和するサブゴールモデルを提案する。
並列環境での正確なシミュレートと実比較のために、325m2のオフィススペースに1.3kmのナビゲーション命令をアノテートし、シミュレーションでデジタル化されたレプリカを作成する。
訓練中に見えない環境へのsim-to-real転送は、占有率マップとナビゲーショングラフを事前に収集して注釈付けできる(simでは46.8%、simでは55.9%)が、事前マッピングのない最も難しい環境ではずっと難しい(成功率22.5%)。
関連論文リスト
- NaVid: Video-based VLM Plans the Next Step for Vision-and-Language
Navigation [19.38454616541272]
VLN(Vision-and-Language Navigation)は、エージェントが言語命令に従って見えない環境でナビゲートできるようにすることを目的として、Embodied AIの重要な研究課題である。
本稿では,映像ベース大規模視覚言語モデル(VLM)であるNaVidを提案する。
NaVidは、地図、オドメーター、深さ入力を使わずに最先端のナビゲーション性能を実現するVLMの能力を示す最初の試みである。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。
本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-01-25T17:50:05Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Sim-to-Real via Sim-to-Seg: End-to-end Off-road Autonomous Driving
Without Real Data [56.49494318285391]
我々は、オフロード自動運転の視覚的現実的ギャップを横断するRCANを再想像するSim2Segを紹介する。
これは、ランダム化されたシミュレーション画像をシミュレートされたセグメンテーションと深さマップに変換する学習によって行われる。
これにより、シミュレーションでエンドツーエンドのRLポリシーをトレーニングし、現実世界に直接デプロイできます。
論文 参考訳(メタデータ) (2022-10-25T17:50:36Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Out of the Box: Embodied Navigation in the Real World [45.97756658635314]
シミュレーションで得られた知識を現実世界に伝達する方法を示す。
モデルは1台のIntel RealSenseカメラを搭載したLoCoBotにデプロイします。
本実験では,得られたモデルを実世界に展開することで,満足のいく結果が得られることを示した。
論文 参考訳(メタデータ) (2021-05-12T18:00:14Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。