論文の概要: OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav
- arxiv url: http://arxiv.org/abs/2303.07798v1
- Date: Tue, 14 Mar 2023 11:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:31:25.386046
- Title: OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav
- Title(参考訳): OVRL-V2: ImageNavとObjectNavのためのシンプルな最先端ベースライン
- Authors: Karmesh Yadav, Arjun Majumdar, Ram Ramrakhya, Naoki Yokoyama, Alexei
Baevski, Zsolt Kira, Oleksandr Maksymets, Dhruv Batra
- Abstract要約: 我々は、ImageNavタスクとObjectNavタスクの両方で、最先端の結果を達成する単一のニューラルネットワークアーキテクチャを提案する。
このような汎用的な手法は、設計の単純さ、利用可能な計算での正のスケーリング、複数のタスクへの多用途適用の利点を提供する。
- 参考スコア(独自算出の注目度): 62.32806118504701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a single neural network architecture composed of task-agnostic
components (ViTs, convolutions, and LSTMs) that achieves state-of-art results
on both the ImageNav ("go to location in <this picture>") and ObjectNav ("find
a chair") tasks without any task-specific modules like object detection,
segmentation, mapping, or planning modules. Such general-purpose methods offer
advantages of simplicity in design, positive scaling with available compute,
and versatile applicability to multiple tasks. Our work builds upon the recent
success of self-supervised learning (SSL) for pre-training vision transformers
(ViT). However, while the training recipes for convolutional networks are
mature and robust, the recipes for ViTs are contingent and brittle, and in the
case of ViTs for visual navigation, yet to be fully discovered. Specifically,
we find that vanilla ViTs do not outperform ResNets on visual navigation. We
propose the use of a compression layer operating over ViT patch representations
to preserve spatial information along with policy training improvements. These
improvements allow us to demonstrate positive scaling laws for the first time
in visual navigation tasks. Consequently, our model advances state-of-the-art
performance on ImageNav from 54.2% to 82.0% success and performs competitively
against concurrent state-of-art on ObjectNav with success rate of 64.0% vs.
65.0%. Overall, this work does not present a fundamentally new approach, but
rather recommendations for training a general-purpose architecture that
achieves state-of-art performance today and could serve as a strong baseline
for future methods.
- Abstract(参考訳): タスクに依存しないコンポーネント(vits, convolutions, lstms)で構成された単一のニューラルネットワークアーキテクチャを提案する。これはimagenav(<this picture>)とobjectnav("find a chair")タスクの両方において,オブジェクト検出やセグメンテーション,マッピング,プランニングモジュールといったタスク固有のモジュールを必要とせずに,最先端の結果を得る。
このような汎用メソッドは、設計の単純さ、利用可能な計算によるポジティブなスケーリング、複数のタスクに適用可能な汎用性といった利点を提供する。
我々の研究は、ビジョントランスフォーマー(ViT)の自己教師型学習(SSL)の成功に基づいている。
しかし、畳み込みネットワークのトレーニングレシピは成熟し堅牢であるが、ViTsのレシピは断続的で脆く、視覚ナビゲーションのViTsの場合、まだ完全には発見されていない。
具体的には、バニラ ViT が視覚ナビゲーションにおいて ResNet を上回りません。
本稿では,ViTパッチ表現上で動作する圧縮層を用いて空間情報を保存し,ポリシトレーニングの改善を提案する。
これらの改善により、ビジュアルナビゲーションタスクで初めてポジティブなスケーリング法則を実証することができます。
その結果、ImageNavの最先端性能は54.2%から82.0%に向上し、64.0%と65.0%とでObjectNavの同時最先端性能と競合する。
全体として、この作業は基本的な新しいアプローチではなく、今日の最先端のパフォーマンスを達成し、将来のメソッドの強力なベースラインとなる汎用アーキテクチャをトレーニングするための推奨事項である。
関連論文リスト
- An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Offline Visual Representation Learning for Embodied Navigation [50.442660137987275]
自己教師付き学習による視覚表現のオフライン事前学習(SSL)
長期学習スケジュール下での画像強調による特定のタスクにおけるビジュモータ表現のオンライン微調整
論文 参考訳(メタデータ) (2022-04-27T23:22:43Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Simple but Effective: CLIP Embeddings for Embodied AI [38.02562593292301]
CLIP(Contrastive Language Image Pretraining)エンコーダは様々な視覚的タスクに有用であることが示されている。
タスク固有のアーキテクチャなしで、EmbCLIPという名前の驚くほどシンプルなベースラインを構築します。
改良されたベースラインは、さまざまなタスクやシミュレータで非常によく機能します。
論文 参考訳(メタデータ) (2021-11-18T18:59:59Z) - Auxiliary Tasks and Exploration Enable ObjectNav [48.314102158070874]
補助学習タスクと探索報酬を追加することで,汎用学習エージェントを再生成する。
われわれのエージェントは24.5%の成功、8.1%のSPL、それぞれ37%と8%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2021-04-08T23:03:21Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。