論文の概要: Semantic Visual Navigation by Watching YouTube Videos
- arxiv url: http://arxiv.org/abs/2006.10034v2
- Date: Tue, 27 Oct 2020 05:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:07:59.205003
- Title: Semantic Visual Navigation by Watching YouTube Videos
- Title(参考訳): YouTube動画視聴によるセマンティックビジュアルナビゲーション
- Authors: Matthew Chang, Arjun Gupta, Saurabh Gupta
- Abstract要約: 本稿は,YouTube動画を単に視聴することで,新たな環境への関心の対象へのナビゲートを行うための意味的手法を学習し,活用する。
本研究では、受動的データからの外部のQ-ラーニングがナビゲーションに意味のある意味的手がかりを学習できることを示す。
我々は,最小の直接的相互作用を用いて,エンド・ツー・エンドのRL,行動クローニング,古典的手法に対して15~83%の相対的な改善を観察した。
- 参考スコア(独自算出の注目度): 17.76847333440422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic cues and statistical regularities in real-world environment layouts
can improve efficiency for navigation in novel environments. This paper learns
and leverages such semantic cues for navigating to objects of interest in novel
environments, by simply watching YouTube videos. This is challenging because
YouTube videos don't come with labels for actions or goals, and may not even
showcase optimal behavior. Our method tackles these challenges through the use
of Q-learning on pseudo-labeled transition quadruples (image, action, next
image, reward). We show that such off-policy Q-learning from passive data is
able to learn meaningful semantic cues for navigation. These cues, when used in
a hierarchical navigation policy, lead to improved efficiency at the ObjectGoal
task in visually realistic simulations. We observe a relative improvement of
15-83% over end-to-end RL, behavior cloning, and classical methods, while using
minimal direct interaction.
- Abstract(参考訳): 実環境レイアウトにおける意味的手がかりと統計的規則性は、新しい環境におけるナビゲーションの効率を向上させることができる。
本稿は,youtube ビデオを単に視聴することによって,新しい環境に興味のある対象にナビゲートするために,このような意味的手がかりを学習し,活用する。
YouTubeの動画には、アクションやゴールのラベルが付いておらず、最適な行動を示していないため、これは難しいことです。
本手法は,疑似ラベル付き遷移四足歩行(画像,アクション,次画像,報酬)におけるq-learningを用いて,これらの課題に取り組む。
パッシブデータからのオフポリシーq学習は,ナビゲーションに有意義な意味的手がかりを学習できることを示す。
これらのキューを階層的なナビゲーションポリシーで使用すると、視覚的に現実的なシミュレーションにおいてObjectGoalタスクの効率が向上する。
エンド・ツー・エンドのrl, 動作クローニング, 古典的手法に対して, 最小の直接的相互作用を用いて, 15-83%の相対的改善を観察した。
関連論文リスト
- NOLO: Navigate Only Look Once [29.242548047719787]
本稿では、オフラインでビデオからコンテキスト内ナビゲーションポリシーを純粋に学習する必要があるビデオナビゲーション設定に焦点を当てる。
In-context 能力を有するナビゲーションポリシーの学習方法である Navigate Only Look Once (NOLO) を提案する。
提案アルゴリズムは,学習ポリシーの文脈内学習能力を実証し,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-08-02T16:41:34Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - PONI: Potential Functions for ObjectGoal Navigation with
Interaction-free Learning [125.22462763376993]
対話自由学習(PONI)を用いたオブジェクト指向ナビゲーションの可能性について提案する。
PONIは、物がどこに見えるかというスキルと、どのように(x, y)にナビゲートするかを歪めます。」
論文 参考訳(メタデータ) (2022-01-25T01:07:32Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - Unsupervised Domain Adaptation for Visual Navigation [115.85181329193092]
視覚ナビゲーションのための教師なし領域適応手法を提案する。
本手法では,対象領域の画像をソース領域に変換し,ナビゲーションポリシで学習した表現と一致するようにする。
論文 参考訳(メタデータ) (2020-10-27T18:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。