論文の概要: Using Navigational Information to Learn Visual Representations
- arxiv url: http://arxiv.org/abs/2202.08114v1
- Date: Thu, 10 Feb 2022 20:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-20 16:23:11.358405
- Title: Using Navigational Information to Learn Visual Representations
- Title(参考訳): ナビゲーション情報を用いた視覚表現学習
- Authors: Lizhen Zhu, Brad Wyble, James Z. Wang
- Abstract要約: コントラスト学習の事前学習段階における空間的・時間的情報を用いることで、下流分類の性能を向上させることができることを示す。
この研究は、表現学習を改善するための文脈情報の有効性と効率を明らかにする。
- 参考スコア(独自算出の注目度): 7.747924294389427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Children learn to build a visual representation of the world from
unsupervised exploration and we hypothesize that a key part of this learning
ability is the use of self-generated navigational information as a similarity
label to drive a learning objective for self-supervised learning. The goal of
this work is to exploit navigational information in a visual environment to
provide performance in training that exceeds the state-of-the-art
self-supervised training. Here, we show that using spatial and temporal
information in the pretraining stage of contrastive learning can improve the
performance of downstream classification relative to conventional contrastive
learning approaches that use instance discrimination to discriminate between
two alterations of the same image or two different images. We designed a
pipeline to generate egocentric-vision images from a photorealistic ray-tracing
environment (ThreeDWorld) and record relevant navigational information for each
image. Modifying the Momentum Contrast (MoCo) model, we introduced spatial and
temporal information to evaluate the similarity of two views in the pretraining
stage instead of instance discrimination. This work reveals the effectiveness
and efficiency of contextual information for improving representation learning.
The work informs our understanding of the means by which children might learn
to see the world without external supervision.
- Abstract(参考訳): 子どもたちは、教師なしの探索から世界の視覚的表現を構築することを学び、この学習能力の重要な部分は、自己生成したナビゲーション情報を類似性ラベルとして使用することで、自己教師なし学習の学習目標を駆動する、と仮定する。
この研究の目的は、視覚環境におけるナビゲーション情報を利用して、最先端の自己監督訓練を超えるトレーニングのパフォーマンスを提供することである。
本稿では,コントラスト学習の事前学習段階における空間的および時間的情報の利用により,同一画像の2つの変更と2つの異なる画像の区別にインスタンス識別を用いる従来のコントラスト学習手法と比較して,下流分類の性能を向上させることができることを示す。
3dworld(photorealistic ray-tracing environment)からエゴセントリックな画像を生成し,関連するナビゲーション情報を記録するためのパイプラインを設計した。
運動量コントラスト(moco)モデルの改良により,前訓練段階における2つの視点の類似性を評価するために,空間的および時間的情報を導入した。
本研究は,表現学習を改善するための文脈情報の有効性と効率を明らかにする。
この研究は、子供たちが外部の監督なしで世界を見ることを学ぶ方法の理解に役立ちます。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - A Computational Account Of Self-Supervised Visual Learning From
Egocentric Object Play [3.486683381782259]
本研究では,異なる視点を同一視する学習信号が,頑健な視覚学習を支援する方法について検討する。
物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。
論文 参考訳(メタデータ) (2023-05-30T22:42:03Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Focus on the Positives: Self-Supervised Learning for Biodiversity
Monitoring [9.086207853136054]
ラベルのない画像コレクションから自己教師付き表現を学習する問題に対処する。
我々は,入力画像間の空間的関係や時間的関係などの情報を符号化する,手軽に利用可能なコンテキストデータを利用する。
地球生物多様性監視の重要課題として、人間の監督が限定された視覚的種分類タスクに適応可能な画像特徴があげられる。
論文 参考訳(メタデータ) (2021-08-14T01:12:41Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z) - Learning to Visually Navigate in Photorealistic Environments Without any
Supervision [37.22924101745505]
外部の監督や報酬を伴わずに画像入力から学習するための新しいアプローチを導入する。
我々のアプローチは3つの段階から構成される: 一人称視点の優れた表現を学習し、次に記憶を用いて探索することを学ぶ。
エージェントを訓練して、RGB入力のみでギブソンデータセットから挑戦的な写真リアリスティック環境をナビゲートすることで、このアプローチの利点を示す。
論文 参考訳(メタデータ) (2020-04-10T08:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。