論文の概要: Visual Prompt Tuning for Generative Transfer Learning
- arxiv url: http://arxiv.org/abs/2210.00990v1
- Date: Mon, 3 Oct 2022 14:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:39:07.506423
- Title: Visual Prompt Tuning for Generative Transfer Learning
- Title(参考訳): 生成的伝達学習のためのビジュアルプロンプトチューニング
- Authors: Kihyuk Sohn, Yuan Hao, Jos\'e Lezama, Luisa Polania, Huiwen Chang, Han
Zhang, Irfan Essa, Lu Jiang
- Abstract要約: 生成的知識伝達による視覚変換器の学習法を提案する。
我々は,映像を自己回帰的あるいは非自己回帰的変換器への視覚トークンのシーケンスとして表現する最先端の生成的視覚変換器を基盤とする。
新しい領域に適応するために、画像トークンシーケンスへのプロンプトと呼ばれる学習可能なトークンを優先するプロンプトチューニングを用いる。
- 参考スコア(独自算出の注目度): 26.895321693202284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transferring knowledge from an image synthesis model trained on a large
dataset is a promising direction for learning generative image models from
various domains efficiently. While previous works have studied GAN models, we
present a recipe for learning vision transformers by generative knowledge
transfer. We base our framework on state-of-the-art generative vision
transformers that represent an image as a sequence of visual tokens to the
autoregressive or non-autoregressive transformers. To adapt to a new domain, we
employ prompt tuning, which prepends learnable tokens called prompt to the
image token sequence, and introduce a new prompt design for our task. We study
on a variety of visual domains, including visual task adaptation
benchmark~\cite{zhai2019large}, with varying amount of training images, and
show effectiveness of knowledge transfer and a significantly better image
generation quality over existing works.
- Abstract(参考訳): 大規模データセットでトレーニングされた画像合成モデルから知識を転送することは、様々な領域から効率的に生成画像モデルを学ぶための有望な方向である。
これまでの研究ではganモデルを研究してきたが,生成的知識伝達により視覚トランスフォーマーを学習するためのレシピを提案する。
自己回帰的または非自己回帰的トランスフォーマーに対する視覚トークンのシーケンスとしてイメージを表現する最先端の生成的視覚トランスフォーマーを基盤とする。
新しいドメインに適応するために、画像トークンシーケンスにプロンプトと呼ばれる学習可能なトークンを必須とするプロンプトチューニングを採用し、タスクに新しいプロンプトデザインを導入します。
本研究では,視覚タスク適応ベンチマーク~\cite{zhai2019large} を含む様々な視覚領域について,トレーニング画像の量が多様であり,知識伝達の有効性と既存の作品よりも画像生成品質が著しく向上することを示す。
関連論文リスト
- Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - A Comprehensive Study of Vision Transformers in Image Classification
Tasks [0.46040036610482665]
画像分類のための視覚変換器に関する既存の論文を包括的に調査する。
まず,モデルの設計に影響を及ぼす人気画像分類データセットを紹介する。
まず、視覚タスクに注意機構を適応させようとする初期の試みから始まる、時系列順の視覚トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-12-02T21:38:16Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。