論文の概要: Offline Visual Representation Learning for Embodied Navigation
- arxiv url: http://arxiv.org/abs/2204.13226v1
- Date: Wed, 27 Apr 2022 23:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-30 05:00:54.420793
- Title: Offline Visual Representation Learning for Embodied Navigation
- Title(参考訳): 具体的ナビゲーションのためのオフライン視覚表現学習
- Authors: Karmesh Yadav, Ram Ramrakhya, Arjun Majumdar, Vincent-Pierre Berges,
Sachit Kuhar, Dhruv Batra, Alexei Baevski, Oleksandr Maksymets
- Abstract要約: 自己教師付き学習による視覚表現のオフライン事前学習(SSL)
長期学習スケジュール下での画像強調による特定のタスクにおけるビジュモータ表現のオンライン微調整
- 参考スコア(独自算出の注目度): 50.442660137987275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How should we learn visual representations for embodied agents that must see
and move? The status quo is tabula rasa in vivo, i.e. learning visual
representations from scratch while also learning to move, potentially augmented
with auxiliary tasks (e.g. predicting the action taken between two successive
observations). In this paper, we show that an alternative 2-stage strategy is
far more effective: (1) offline pretraining of visual representations with
self-supervised learning (SSL) using large-scale pre-rendered images of indoor
environments (Omnidata), and (2) online finetuning of visuomotor
representations on specific tasks with image augmentations under long learning
schedules. We call this method Offline Visual Representation Learning (OVRL).
We conduct large-scale experiments - on 3 different 3D datasets (Gibson, HM3D,
MP3D), 2 tasks (ImageNav, ObjectNav), and 2 policy learning algorithms (RL, IL)
- and find that the OVRL representations lead to significant across-the-board
improvements in state of art, on ImageNav from 29.2% to 54.2% (+25% absolute,
86% relative) and on ObjectNav from 18.1% to 23.2% (+5.1% absolute, 28%
relative). Importantly, both results were achieved by the same visual encoder
generalizing to datasets that were not seen during pretraining. While the
benefits of pretraining sometimes diminish (or entirely disappear) with long
finetuning schedules, we find that OVRL's performance gains continue to
increase (not decrease) as the agent is trained for 2 billion frames of
experience.
- Abstract(参考訳): 観察と移動が必要なエンボディエージェントの視覚表現をどうやって学習するか?
状態クオは、生体内でタブラララサ、すなわち、スクラッチから視覚表現を学習し、動きを学習し、補助的なタスク(例えば、2つの連続した観察の間に取られた行動を予測する)で増強される可能性がある。
本稿では,(1)屋内環境(omnidata)の大規模事前レンダリング画像を用いた自己教師付き学習(ssl)による視覚表現のオフライン事前学習,(2)長期学習スケジュールによる画像拡張を伴う特定タスクにおける視覚表現のオンライン微調整,という2段階の戦略がより効果的であることを示す。
この手法をオフライン視覚表現学習(OVRL)と呼ぶ。
我々は3つの異なる3Dデータセット(Gibson, HM3D, MP3D)、2つのタスク(ImageNav, ObjectNav)、2つのポリシー学習アルゴリズム(RL, IL)で大規模な実験を行い、OVRL表現が芸術の状況において、29.2%から54.2%(+25%絶対, 86%相対)、ObjectNavでは18.1%から23.2%(+5.1%絶対, 28%相対)で大幅に改善されていることを発見した。
重要なことに、両方の結果は、事前トレーニング中に見られなかったデータセットに一般化した同じビジュアルエンコーダによって達成された。
事前トレーニングの利点は、長い微調整スケジュールで時々減少(または完全に消失)するが、エージェントが20億フレームの経験を訓練するにつれて、ovrlのパフォーマンス向上は(減少しない)増加し続ける。
関連論文リスト
- Pretrained Visual Representations in Reinforcement Learning [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)をスクラッチから学習する視覚強化学習アルゴリズムの性能と、事前学習された視覚表現(PVR)を利用するものとの比較を行う。
ResNet18, DINOv2, Visual Cortex (VC) の3つのPVRに対して, 最先端のビジュアルRL法である Dormant Ratio Minimization (DRM) アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-07-24T12:53:26Z) - Towards Better Data Exploitation in Self-Supervised Monocular Depth
Estimation [14.262669370264994]
本稿では、データセットのトレーニングの可能性を完全に活用するために、Resizing-CroppingとSplitting-Permutingという2つのデータ拡張手法を用いる。
具体的には、原画像と生成した2つの拡張イメージを同時にトレーニングパイプラインに供給し、自己蒸留を行う。
実験により,KITTIベンチマークを用いて,地中真理と地中真理の両面から,最先端の性能を実証した。
論文 参考訳(メタデータ) (2023-09-11T06:18:05Z) - OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav [62.32806118504701]
我々は、ImageNavタスクとObjectNavタスクの両方で、最先端の結果を達成する単一のニューラルネットワークアーキテクチャを提案する。
このような汎用的な手法は、設計の単純さ、利用可能な計算での正のスケーリング、複数のタスクへの多用途適用の利点を提供する。
論文 参考訳(メタデータ) (2023-03-14T11:15:37Z) - Leveraging the Third Dimension in Contrastive Learning [88.17394309208925]
SSL(Self-Supervised Learning)メソッドは、ラベルのないデータでダウンストリームタスクに有用な堅牢な表現を学習する。
これらの拡張は、生物学的ビジョンが没入的な3次元、時間的に連続した環境で起こるという事実を無視している。
SSLフレームワークにディープシグナルを組み込むための2つの異なるアプローチについて検討する。
論文 参考訳(メタデータ) (2023-01-27T15:45:03Z) - VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning [14.869611817084015]
視覚深層学習(DRL)課題を解決するためのデータ駆動型フレームワークであるVRL3を提案する。
我々のフレームワークには3つのステージがある: ステージ1では非RLデータセットを利用してタスクに依存しない視覚表現を学習し、ステージ2ではオフラインRLデータを使用し、ステージ3ではエージェントをオンラインRLで微調整する。
一連の手操作タスクにおいて、VRL3は平均して780%のサンプル効率を達成する。
論文 参考訳(メタデータ) (2022-02-17T09:51:32Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。