論文の概要: Structure-Encoding Auxiliary Tasks for Improved Visual Representation in
Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2211.11116v1
- Date: Sun, 20 Nov 2022 23:04:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:51:26.062932
- Title: Structure-Encoding Auxiliary Tasks for Improved Visual Representation in
Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションにおける視覚表現の改善のための構造エンコード補助タスク
- Authors: Chia-Wen Kuo, Chih-Yao Ma, Judy Hoffman, Zsolt Kira
- Abstract要約: Vision-and-Language Navigation(VLN)では、研究者は通常、ImageNetで事前トレーニングされたイメージエンコーダを、エージェントがトレーニングまたはテストされる環境を微調整することなく利用する。
ナビゲーション環境のデータを事前学習し、画像エンコーダを改良する構造符号化補助タスク(SEA)を設計する。
- 参考スコア(独自算出の注目度): 35.71534299616123
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Vision-and-Language Navigation (VLN), researchers typically take an image
encoder pre-trained on ImageNet without fine-tuning on the environments that
the agent will be trained or tested on. However, the distribution shift between
the training images from ImageNet and the views in the navigation environments
may render the ImageNet pre-trained image encoder suboptimal. Therefore, in
this paper, we design a set of structure-encoding auxiliary tasks (SEA) that
leverage the data in the navigation environments to pre-train and improve the
image encoder. Specifically, we design and customize (1) 3D jigsaw, (2)
traversability prediction, and (3) instance classification to pre-train the
image encoder. Through rigorous ablations, our SEA pre-trained features are
shown to better encode structural information of the scenes, which ImageNet
pre-trained features fail to properly encode but is crucial for the target
navigation task. The SEA pre-trained features can be easily plugged into
existing VLN agents without any tuning. For example, on Test-Unseen
environments, the VLN agents combined with our SEA pre-trained features achieve
absolute success rate improvement of 12% for Speaker-Follower, 5% for
Env-Dropout, and 4% for AuxRN.
- Abstract(参考訳): Vision-and-Language Navigation(VLN)では、研究者は通常、ImageNetで事前トレーニングされたイメージエンコーダを、エージェントがトレーニングまたはテストされる環境を微調整することなく利用する。
しかし、imagenetからのトレーニング画像とナビゲーション環境のビューの分布シフトは、imagenetの事前学習画像エンコーダを最適にレンダリングすることができる。
そこで本稿では,画像エンコーダの事前学習と改善のために,ナビゲーション環境のデータを活用する構造エンコード補助タスク(sea)のセットを設計する。
具体的には,(1)3次元ジグソー,(2)トラバーサビリティ予測,(3)画像エンコーダの事前学習のためのインスタンス分類を設計・カスタマイズする。
厳密な改善を通じて、私たちのSEA事前学習機能はシーンの構造情報をよりよくエンコードすることを示し、ImageNet事前学習した機能は適切にエンコードできないが、ターゲットナビゲーションタスクには不可欠である。
SEA事前訓練された機能は、チューニングなしで既存のVLNエージェントに簡単にプラグインできる。
例えば、Test-Unseen環境では、VLNエージェントとSEA事前訓練された機能を組み合わせることで、話者フォローの12%、Env-Dropoutの5%、AuxRNの4%という絶対的な成功率の向上を実現しています。
関連論文リスト
- Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers [6.890658812702241]
視覚的位置認識(VPR)のための新しい共同学習法を提案する。
ペア分類器は、与えられた画像のペアが同じ場所から来ているか否かを予測することができる。
トレーニングの第2段階でMaskイメージモデリングエンコーダとデコーダウェイトを再使用することにより、Pair-VPRは最先端のVPRパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2024-10-09T07:09:46Z) - SODAWideNet++: Combining Attention and Convolutions for Salient Object Detection [3.2586315449885106]
本稿では,Salient Object Detectionのために設計されたSODAWideNet++と呼ばれる新しいエンコーダ・デコーダ型ニューラルネットワークを提案する。
視覚変換器が初期からグローバルな受容場を得る能力に触発されて、注意誘導長距離特徴抽出(AGLRFE)モジュールを導入する。
ImageNet事前トレーニングの現在のパラダイムとは対照的に、提案したモデルエンドツーエンドの事前トレーニングのためにアノテーションをバイナライズすることで、COCOセマンティックセグメンテーションデータセットから118Kの注釈付き画像を修正します。
論文 参考訳(メタデータ) (2024-08-29T15:51:06Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。