論文の概要: Pre-Trained Language Transformers are Universal Image Classifiers
- arxiv url: http://arxiv.org/abs/2201.10182v1
- Date: Tue, 25 Jan 2022 08:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 02:35:25.442131
- Title: Pre-Trained Language Transformers are Universal Image Classifiers
- Title(参考訳): 事前学習型言語変換器はユニバーサルイメージ分類器である
- Authors: Rahul Goel, Modar Sulaiman, Kimia Noorbakhsh, Mahdi Sharifi, Rajesh
Sharma, Pooyan Jamshidi, Kallol Roy
- Abstract要約: 我々は,事前学習したトランスモデルを用いて,画像の分類を行う新しい手法を提案する。
GPT-2は、自己回帰プロセスを通じて一度に1つのワードトークンを生成するように訓練され、ヘビーテールの分布を余儀なくされた。
FPTは、分類中に使用する1つのテキストの事前訓練のために、世界的知識を符号化する。
- 参考スコア(独自算出の注目度): 5.276243228969299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial images disclose many hidden personal traits such as age, gender, race,
health, emotion, and psychology. Understanding these traits will help to
classify the people in different attributes. In this paper, we have presented a
novel method for classifying images using a pretrained transformer model. We
apply the pretrained transformer for the binary classification of facial images
in criminal and non-criminal classes. The pretrained transformer of GPT-2 is
trained to generate text and then fine-tuned to classify facial images. During
the finetuning process with images, most of the layers of GT-2 are frozen
during backpropagation and the model is frozen pretrained transformer (FPT).
The FPT acts as a universal image classifier, and this paper shows the
application of FPT on facial images. We also use our FPT on encrypted images
for classification. Our FPT shows high accuracy on both raw facial images and
encrypted images. We hypothesize the meta-learning capacity FPT gained because
of its large size and trained on a large size with theory and experiments. The
GPT-2 trained to generate a single word token at a time, through the
autoregressive process, forced to heavy-tail distribution. Then the FPT uses
the heavy-tail property as its meta-learning capacity for classifying images.
Our work shows one way to avoid bias during the machine classification of
images.The FPT encodes worldly knowledge because of the pretraining of one
text, which it uses during the classification. The statistical error of
classification is reduced because of the added context gained from the text.Our
paper shows the ethical dimension of using encrypted data for
classification.Criminal images are sensitive to share across the boundary but
encrypted largely evades ethical concern.FPT showing good classification
accuracy on encrypted images shows promise for further research on
privacy-preserving machine learning.
- Abstract(参考訳): 顔画像は年齢、性別、人種、健康、感情、心理学など多くの隠された個人的特徴を開示している。
これらの特徴を理解することは、人々を異なる属性に分類するのに役立ちます。
本稿では,事前学習したトランスモデルを用いて画像の分類を行う手法を提案する。
犯罪及び非犯罪クラスにおける顔画像のバイナリ分類にプリトレーニングトランスを適用する。
GPT-2の事前訓練された変換器は、テキストを生成し、微調整して顔画像の分類を行う。
画像による微細化過程において、GT-2のほとんどの層はバックプロパゲーション中に凍結され、モデルが凍結予め訓練されたトランス (FPT) である。
FPTは普遍的な画像分類器として機能し, 顔画像へのFPTの適用を示す。
また、FPTを暗号化画像に使用して分類する。
FPTは生の顔画像と暗号化画像の両方に高い精度を示す。
メタラーニング能力のFPTは,その大きさが大きいため,理論と実験により大規模に訓練された。
GPT-2は、自己回帰プロセスを通じて一度に1つのワードトークンを生成するように訓練された。
その後、fptは画像分類のメタ学習能力としてヘビーテール特性を使用する。
本研究は,画像の機械分類における偏見を回避する方法のひとつであり,FPTは1つのテキストの事前学習のために世界的知識を符号化する。
テキストから得られたコンテキストの追加により分類の統計的誤りが減少する。本論文は、暗号化されたデータを用いた分類の倫理的側面を示す。犯罪画像は境界を越えて共有することに対して敏感であるが、倫理的な懸念をほとんど回避する。
関連論文リスト
- I can't see it but I can Fine-tune it: On Encrypted Fine-tuning of
Transformers using Fully Homomorphic Encryption [5.12893315783096]
BlindTunerは、画像分類のための同型暗号化データのみを対象としたトランスフォーマートレーニングを可能にする、プライバシー保護のための微調整システムである。
以上の結果から,従来よりも1.5倍から600倍の速度向上が見られた。
論文 参考訳(メタデータ) (2024-02-14T10:15:43Z) - Recoverable Privacy-Preserving Image Classification through Noise-like
Adversarial Examples [26.026171363346975]
分類などのクラウドベースの画像関連サービスが重要になっている。
本研究では,新しいプライバシー保護画像分類手法を提案する。
暗号化された画像は、秘密鍵を使用して、高い忠実度(保存可能な)で元の形式に復号することができる。
論文 参考訳(メタデータ) (2023-10-19T13:01:58Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - TransHP: Image Classification with Hierarchical Prompting [27.049504972041834]
本稿では階層画像分類(HIC)タスクの階層的プロンプト機構について検討する。
我々は、人間の視覚認識をよく模倣していると考えている。つまり、人類は祖先クラスを、子孫クラス間の微妙な違いに焦点をあてるプロンプトとして使うかもしれない。
論文 参考訳(メタデータ) (2023-04-13T10:37:41Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Privacy-Preserving Image Classification Using Vision Transformer [16.679394807198]
暗号化画像と視覚変換器(ViT)を組み合わせたプライバシー保護画像分類手法を提案する。
ViTは画像パッチにパッチ埋め込みと位置埋め込みを利用するため、このアーキテクチャはブロックワイド画像変換の影響を低減することができる。
実験では,様々な攻撃に対する分類精度とロバスト性の観点から,プライバシー保護画像分類の手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T12:51:48Z) - Privacy-Preserving Image Classification Using Isotropic Network [14.505867475659276]
本稿では,暗号化画像と視覚変換器などの等方性ネットワークを用いたプライバシー保護画像分類手法を提案する。
提案手法では,深層ニューラルネットワーク(DNN)に視覚情報のない画像を適用するだけでなく,高い分類精度を維持することができる。
論文 参考訳(メタデータ) (2022-04-16T03:15:54Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - A Study of Face Obfuscation in ImageNet [94.2949777826947]
本稿では,imagenetチャレンジにおける画像難読化について検討する。
ImageNetチャレンジのほとんどのカテゴリは、人のカテゴリではありません。
さまざまな深層ニューラルネットワークを顔画像上でベンチマークし、異なるカテゴリに対する異なる影響を観察します。
結果は、顔が破れた画像で学んだ特徴が等しく転送可能であることを示している。
論文 参考訳(メタデータ) (2021-03-10T17:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。