論文の概要: Towards a Unified Foundation Model: Jointly Pre-Training Transformers on
Unpaired Images and Text
- arxiv url: http://arxiv.org/abs/2112.07074v1
- Date: Tue, 14 Dec 2021 00:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 15:24:52.765937
- Title: Towards a Unified Foundation Model: Jointly Pre-Training Transformers on
Unpaired Images and Text
- Title(参考訳): 統一基礎モデルに向けて:非ペア画像とテキストの同時事前学習トランスフォーマー
- Authors: Qing Li, Boqing Gong, Yin Cui, Dan Kondratyuk, Xianzhi Du, Ming-Hsuan
Yang, Matthew Brown
- Abstract要約: 我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。
我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。
実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
- 参考スコア(独自算出の注目度): 93.11954811297652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the possibility of building a unified foundation
model that can be adapted to both vision-only and text-only tasks. Starting
from BERT and ViT, we design a unified transformer consisting of
modality-specific tokenizers, a shared transformer encoder, and task-specific
output heads. To efficiently pre-train the proposed model jointly on unpaired
images and text, we propose two novel techniques: (i) We employ the
separately-trained BERT and ViT models as teachers and apply knowledge
distillation to provide additional, accurate supervision signals for the joint
training; (ii) We propose a novel gradient masking strategy to balance the
parameter updates from the image and text pre-training losses. We evaluate the
jointly pre-trained transformer by fine-tuning it on image classification tasks
and natural language understanding tasks, respectively. The experiments show
that the resultant unified foundation transformer works surprisingly well on
both the vision-only and text-only tasks, and the proposed knowledge
distillation and gradient masking strategy can effectively lift the performance
to approach the level of separately-trained models.
- Abstract(参考訳): 本稿では,視覚のみのタスクとテキストのみのタスクに適応可能な統合基盤モデルの構築の可能性を検討する。
BERT と ViT を皮切りに、モダリティ固有のトークン化器、共有トランスコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。
画像とテキストを協調的に事前学習するために,提案手法は2つの新しい手法を提案する。
(i)個別に訓練したBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、共同訓練のための追加的かつ正確な監視信号を提供する。
(ii)画像からのパラメータ更新とテキスト事前学習ロスのバランスをとるための新しい勾配マスキング戦略を提案する。
画像分類タスクと自然言語理解タスクを微調整することにより, 共同事前学習型変換器の評価を行った。
実験の結果, 統合基礎変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能し, 提案した知識蒸留と勾配マスキング戦略は, 個別に訓練されたモデルのレベルに近づくために, 効果的に性能を高めることができることがわかった。
関連論文リスト
- Image Generation from Image Captioning -- Invertible Approach [0.0]
画像とテキストの埋め込みを1対1でマッピングする非可逆モデルを訓練する。
インバーチブルモデルが1つのタスクで効率的に訓練されると、画像キャプションは、同じモデルが与えられたテキストに対して新しい画像を生成することができる。
論文 参考訳(メタデータ) (2024-10-26T13:02:58Z) - Instruct-IPT: All-in-One Image Processing Transformer via Weight Modulation [25.253522756863727]
Instruct-IPT - 多様体画像復元タスクを効果的に処理できるオールインワン画像処理変換器を提案する。
おもちゃの実験を通してタスクに敏感な重みを見つけ,その上にタスク固有のバイアスを導入する。
優れた圧縮戦略のランク解析を行い、バイアスに対して低ランク分解を行う。
論文 参考訳(メタデータ) (2024-06-30T12:13:34Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Pre-training image-language transformers for open-vocabulary tasks [53.446599611203474]
本稿では,様々なタスクの混合に基づく視覚・言語トランスフォーマーモデルに対する事前学習手法を提案する。
本稿では,事前学習における画像テキストキャプションデータの利用について検討する。
本研究では,視覚質問応答,視覚的エンターテイメント,キャプションなど,テキスト生成型視覚+言語タスクの手法の評価を行い,標準的な事前学習手法よりも大きな効果を示した。
論文 参考訳(メタデータ) (2022-09-09T16:11:11Z) - Image and Model Transformation with Secret Key for Vision Transformer [16.055655429920993]
普通の画像で訓練されたモデルを直接、暗号化された画像で訓練されたモデルに変換することができることを示す。
変換されたモデルの性能は、キーで暗号化されたテスト画像を使用する場合、平易なイメージで訓練されたモデルと同じである。
論文 参考訳(メタデータ) (2022-07-12T08:02:47Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。