論文の概要: GLID: Pre-training a Generalist Encoder-Decoder Vision Model
- arxiv url: http://arxiv.org/abs/2404.07603v1
- Date: Thu, 11 Apr 2024 09:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:29:24.091608
- Title: GLID: Pre-training a Generalist Encoder-Decoder Vision Model
- Title(参考訳): GLID:ジェネリストエンコーダ・デコーダビジョンモデルの事前トレーニング
- Authors: Jihao Liu, Jinliang Zheng, Yu Liu, Hongsheng Li,
- Abstract要約: 本稿では,様々なダウンストリームコンピュータビジョンタスクをよりよく扱うために,ジェネラリストエンコーダ・デコーダ(GLID)事前学習法を提案する。
GLIDは、訓練済みの汎用エンコーダデコーダを、タスク固有のアーキテクチャ変更を最小限に抑えて、様々な視覚タスクに微調整することができる。
GLIDは、オブジェクト検出、画像セグメンテーション、ポーズ推定、深さ推定など、様々な視覚タスクにおける競合性能を達成する。
- 参考スコア(独自算出の注目度): 36.242095346942556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a GeneraLIst encoder-Decoder (GLID) pre-training method for better handling various downstream computer vision tasks. While self-supervised pre-training approaches, e.g., Masked Autoencoder, have shown success in transfer learning, task-specific sub-architectures are still required to be appended for different downstream tasks, which cannot enjoy the benefits of large-scale pre-training. GLID overcomes this challenge by allowing the pre-trained generalist encoder-decoder to be fine-tuned on various vision tasks with minimal task-specific architecture modifications. In the GLID training scheme, pre-training pretext task and other downstream tasks are modeled as "query-to-answer" problems, including the pre-training pretext task and other downstream tasks. We pre-train a task-agnostic encoder-decoder with query-mask pairs. During fine-tuning, GLID maintains the pre-trained encoder-decoder and queries, only replacing the topmost linear transformation layer with task-specific linear heads. This minimizes the pretrain-finetune architecture inconsistency and enables the pre-trained model to better adapt to downstream tasks. GLID achieves competitive performance on various vision tasks, including object detection, image segmentation, pose estimation, and depth estimation, outperforming or matching specialist models such as Mask2Former, DETR, ViTPose, and BinsFormer.
- Abstract(参考訳): 本稿では、様々な下流コンピュータビジョンタスクをよりよく扱うために、ジェネラリストエンコーダ・デコーダ(GLID)事前学習法を提案する。
Masked Autoencoderのような自己指導型事前学習アプローチは、転送学習の成功を示しているが、タスク固有のサブアーキテクチャは、大規模な事前学習の恩恵を享受できない下流タスクに追加する必要がある。
GLIDは、訓練済みの汎用エンコーダデコーダを、タスク固有のアーキテクチャ修正を最小限に抑えた様々な視覚タスクで微調整できるようにすることで、この課題を克服する。
GLIDトレーニングスキームでは、事前学習されたプレテキストタスクやその他のダウンストリームタスクは、事前学習されたプレテキストタスクやその他のダウンストリームタスクを含む「問い合わせ」問題としてモデル化される。
タスクに依存しないエンコーダ-デコーダをクエリマスクペアで事前訓練する。
微調整の間、GLIDはトレーニング済みのエンコーダデコーダとクエリを保持し、最上位の線形変換層をタスク固有の線形ヘッドに置き換える。
これにより、事前訓練済みのファイントゥンアーキテクチャの不整合を最小化し、トレーニング済みのモデルが下流のタスクに適応できるようにします。
GLIDは、オブジェクト検出、イメージセグメンテーション、ポーズ推定、深さ推定、Mask2Former、DETR、ViTPose、BinsFormerなどのパフォーマンスまたはマッチングスペシャリストモデルなど、さまざまなビジョンタスクにおいて、競合的なパフォーマンスを実現している。
関連論文リスト
- How Effective is Pre-training of Large Masked Autoencoders for Downstream Earth Observation Tasks? [9.515532265294187]
自己教師付き事前訓練は多くのコンピュータビジョンタスクに非常に効果的であることが証明されている。
事前訓練されたモデルがスクラッチからトレーニングするよりも大きなアドバンテージを提供する条件は、まだ不明である。
論文 参考訳(メタデータ) (2024-09-27T08:15:14Z) - Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks [9.207022068713867]
複数の下流タスクにまたがる自己監督型視覚エンコーダの対向ロバスト性に関する包括的実証評価を行った。
我々の攻撃はエンコーダの埋め込みスペースと下流タスク出力レベルで動作する。
基礎モデルの目的は一度に複数のアプリケーションに対応することであるため,より広範にエンコーダの堅牢性を高める必要性が明らかとなった。
論文 参考訳(メタデータ) (2024-07-17T14:12:34Z) - Masked AutoDecoder is Effective Multi-Task Vision Generalist [64.43215311406195]
Masked AutoDecoder (MAD) はマルチタスク・ビジョン・ジェネラリストである。
我々は、コンテキスト依存を捉えるために双方向の注意を喚起する並列デコーディングフレームワークを開発する。
第二に、マスキングとタスクシーケンス再構築により、リッチなタスクコンテキストを学習するマスキングシーケンスモデリング手法を設計する。
論文 参考訳(メタデータ) (2024-03-12T14:36:52Z) - Pre-train, Adapt and Detect: Multi-Task Adapter Tuning for Camouflaged
Object Detection [38.5505943598037]
カモフラージュされた物体を検出するために, 事前学習, 適応, 検出のパラダイムを提案する。
大規模な事前学習モデルを導入することで、大量のマルチモーダルデータから得られた豊富な知識を直接CODに転送することができる。
提案手法は既存のCODモデルよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-20T08:25:38Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。