論文の概要: Structure-Encoding Auxiliary Tasks for Improved Visual Representation in
Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2211.11116v1
- Date: Sun, 20 Nov 2022 23:04:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:51:26.062932
- Title: Structure-Encoding Auxiliary Tasks for Improved Visual Representation in
Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションにおける視覚表現の改善のための構造エンコード補助タスク
- Authors: Chia-Wen Kuo, Chih-Yao Ma, Judy Hoffman, Zsolt Kira
- Abstract要約: Vision-and-Language Navigation(VLN)では、研究者は通常、ImageNetで事前トレーニングされたイメージエンコーダを、エージェントがトレーニングまたはテストされる環境を微調整することなく利用する。
ナビゲーション環境のデータを事前学習し、画像エンコーダを改良する構造符号化補助タスク(SEA)を設計する。
- 参考スコア(独自算出の注目度): 35.71534299616123
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Vision-and-Language Navigation (VLN), researchers typically take an image
encoder pre-trained on ImageNet without fine-tuning on the environments that
the agent will be trained or tested on. However, the distribution shift between
the training images from ImageNet and the views in the navigation environments
may render the ImageNet pre-trained image encoder suboptimal. Therefore, in
this paper, we design a set of structure-encoding auxiliary tasks (SEA) that
leverage the data in the navigation environments to pre-train and improve the
image encoder. Specifically, we design and customize (1) 3D jigsaw, (2)
traversability prediction, and (3) instance classification to pre-train the
image encoder. Through rigorous ablations, our SEA pre-trained features are
shown to better encode structural information of the scenes, which ImageNet
pre-trained features fail to properly encode but is crucial for the target
navigation task. The SEA pre-trained features can be easily plugged into
existing VLN agents without any tuning. For example, on Test-Unseen
environments, the VLN agents combined with our SEA pre-trained features achieve
absolute success rate improvement of 12% for Speaker-Follower, 5% for
Env-Dropout, and 4% for AuxRN.
- Abstract(参考訳): Vision-and-Language Navigation(VLN)では、研究者は通常、ImageNetで事前トレーニングされたイメージエンコーダを、エージェントがトレーニングまたはテストされる環境を微調整することなく利用する。
しかし、imagenetからのトレーニング画像とナビゲーション環境のビューの分布シフトは、imagenetの事前学習画像エンコーダを最適にレンダリングすることができる。
そこで本稿では,画像エンコーダの事前学習と改善のために,ナビゲーション環境のデータを活用する構造エンコード補助タスク(sea)のセットを設計する。
具体的には,(1)3次元ジグソー,(2)トラバーサビリティ予測,(3)画像エンコーダの事前学習のためのインスタンス分類を設計・カスタマイズする。
厳密な改善を通じて、私たちのSEA事前学習機能はシーンの構造情報をよりよくエンコードすることを示し、ImageNet事前学習した機能は適切にエンコードできないが、ターゲットナビゲーションタスクには不可欠である。
SEA事前訓練された機能は、チューニングなしで既存のVLNエージェントに簡単にプラグインできる。
例えば、Test-Unseen環境では、VLNエージェントとSEA事前訓練された機能を組み合わせることで、話者フォローの12%、Env-Dropoutの5%、AuxRNの4%という絶対的な成功率の向上を実現しています。
関連論文リスト
- Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Visual Feature Encoding for GNNs on Road Networks [14.274582421372308]
視覚バックボーンネットワークとグラフニューラルネットワークを組み合わせたアーキテクチャを提案する。
衛星画像の符号化により,オープンストリートマップ道路網上で道路型分類タスクを行う。
アーキテクチャによりさらに微調整が可能となり,事前学習により伝達学習のアプローチが評価される。
論文 参考訳(メタデータ) (2022-03-02T15:37:50Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。