論文の概要: Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving
- arxiv url: http://arxiv.org/abs/2209.08953v1
- Date: Mon, 19 Sep 2022 12:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:39:29.950059
- Title: Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving
- Title(参考訳): 統合自動運転におけるマルチタスク協調訓練の効果的適応
- Authors: Xiwen Liang, Yangxin Wu, Jianhua Han, Hang Xu, Chunjing Xu, Xiaodan
Liang
- Abstract要約: 本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
- 参考スコア(独自算出の注目度): 103.745551954983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aiming towards a holistic understanding of multiple downstream tasks
simultaneously, there is a need for extracting features with better
transferability. Though many latest self-supervised pre-training methods have
achieved impressive performance on various vision tasks under the prevailing
pretrain-finetune paradigm, their generalization capacity to multi-task
learning scenarios is yet to be explored. In this paper, we extensively
investigate the transfer performance of various types of self-supervised
methods, e.g., MoCo and SimCLR, on three downstream tasks, including semantic
segmentation, drivable area segmentation, and traffic object detection, on the
large-scale driving dataset BDD100K. We surprisingly find that their
performances are sub-optimal or even lag far behind the single-task baseline,
which may be due to the distinctions of training objectives and architectural
design lied in the pretrain-finetune paradigm. To overcome this dilemma as well
as avoid redesigning the resource-intensive pre-training stage, we propose a
simple yet effective pretrain-adapt-finetune paradigm for general multi-task
training, where the off-the-shelf pretrained models can be effectively adapted
without increasing the training overhead. During the adapt stage, we utilize
learnable multi-scale adapters to dynamically adjust the pretrained model
weights supervised by multi-task objectives while leaving the pretrained
knowledge untouched. Furthermore, we regard the vision-language pre-training
model CLIP as a strong complement to the pretrain-adapt-finetune paradigm and
propose a novel adapter named LV-Adapter, which incorporates language priors in
the multi-task model via task-specific prompting and alignment between visual
and textual features.
- Abstract(参考訳): 複数の下流タスクを同時に理解するためには、より優れた転送性を持つ特徴を抽出する必要がある。
多くの最新の自己教師付き事前学習手法は、一般的なプレトレイン-ファネチューンパラダイムの下で様々な視覚タスクにおいて印象的な性能を達成したが、マルチタスク学習シナリオへの一般化能力はまだ検討されていない。
本稿では,大規模運転データセットBDD100K上でのセマンティックセグメンテーション,ドライビング可能な領域セグメンテーション,トラヒックオブジェクト検出を含む3つの下流タスクにおける,MoCoやSimCLRなどの各種自己監督手法の転送性能を広範囲に検討する。
彼らのパフォーマンスは、トレーニング目標とプレトレイン-ファイントゥンパラダイムに隠れたアーキテクチャ設計の区別によって、シングルタスクベースラインよりはるかに遅れているのです。
このジレンマを克服するとともに、資源集約型プレトレーニングステージの再設計を避けるため、汎用マルチタスクトレーニングのためのシンプルで効果的なプレトレーニング・アダプティブ・ファインチューンパラダイムを提案する。
適応段階において、学習可能なマルチスケールアダプタを用いて、事前学習された知識を無修正にしつつ、事前学習されたモデル重みをマルチタスク目的に監督して動的に調整する。
さらに,視覚言語事前学習モデルクリップを,事前学習-適応-精細化パラダイムの強力な補完として捉え,タスク固有のプロンプトと視覚特徴とテキスト特徴のアライメントを通じてマルチタスクモデルに言語を優先するlv-adapterという新しいアダプタを提案する。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment [0.0]
ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-28T17:20:08Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - SMART: Self-supervised Multi-task pretrAining with contRol Transformers [34.604339091596884]
自己指導型事前訓練は言語と視覚領域で広く研究されている。
シーケンシャルな意思決定タスクのための事前学習アプローチを適切に設計することは困難である。
逐次意思決定のための一般的な事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-24T05:01:23Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Adaptive Transfer Learning on Graph Neural Networks [4.233435459239147]
グラフニューラルネットワーク(GNN)は、グラフ構造化データの強力な表現を学ぶために広く利用されている。
近年の研究では、自己教師型タスクから下流タスクへの知識伝達により、グラフ表現がさらに改善されることが示されている。
本稿では,GNN 上での移動学習パラダイムを提案する。これは,目標タスクを支援するための補助タスクとして,自己教師型タスクを効果的に活用することができる。
論文 参考訳(メタデータ) (2021-07-19T11:46:28Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。