論文の概要: An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
- arxiv url: http://arxiv.org/abs/2406.09415v1
- Date: Thu, 13 Jun 2024 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 15:56:26.590343
- Title: An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
- Title(参考訳): 16x16パッチ以上の画像:個々のピクセルでトランスフォーマーを探索する
- Authors: Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen,
- Abstract要約: バニラ変換器は個々のピクセルをトークンとして扱い、高性能な結果を得られる。
主にコンピュータビジョンにおける3つのよく研究されたタスクにおける画素・アズ・トークンの有効性を示す。
- 参考スコア(独自算出の注目度): 65.64402188506644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work does not introduce a new method. Instead, we present an interesting finding that questions the necessity of the inductive bias -- locality in modern computer vision architectures. Concretely, we find that vanilla Transformers can operate by directly treating each individual pixel as a token and achieve highly performant results. This is substantially different from the popular design in Vision Transformer, which maintains the inductive bias from ConvNets towards local neighborhoods (e.g. by treating each 16x16 patch as a token). We mainly showcase the effectiveness of pixels-as-tokens across three well-studied tasks in computer vision: supervised learning for object classification, self-supervised learning via masked autoencoding, and image generation with diffusion models. Although directly operating on individual pixels is less computationally practical, we believe the community must be aware of this surprising piece of knowledge when devising the next generation of neural architectures for computer vision.
- Abstract(参考訳): この仕事は新しい方法を導入しない。
その代わりに、現代のコンピュータビジョンアーキテクチャにおける帰納バイアス、すなわち局所性の必要性に疑問を呈する興味深い発見を提示します。
具体的には,各画素を直接トークンとして扱うことで,バニラ変換器を動作させることで,高い性能が得られることを示す。
これは、ConvNetsからローカル地区(例えば、16x16パッチをトークンとして扱うなど)への誘導バイアスを維持するVision Transformerの一般的な設計とは大きく異なる。
コンピュータビジョンにおける3つのよく研究された課題(オブジェクト分類のための教師付き学習、マスク付きオートエンコーディングによる自己教師付き学習、拡散モデルによる画像生成)にまたがる画素・アズ・トークンの有効性を主に示す。
個々のピクセルを直接操作することは、計算的にはあまり実践的ではありませんが、コンピュータビジョンのための次世代のニューラルネットワークを開発する際には、この驚くべき知識をコミュニティは認識しなければならないと考えています。
関連論文リスト
- Semantic Segmentation Enhanced Transformer Model for Human Attention
Prediction [8.47446520519624]
唾液度予測は、RGB画像が与えられた人間の眼の注意分布を予測することを目的としている。
最近の最先端手法のほとんどは、従来のCNNのディープイメージ特徴表現に基づいている。
意味的セグメンテーションを学習目的とするトランスフォーマーに基づく手法を提案する。
論文 参考訳(メタデータ) (2023-01-26T10:27:51Z) - Knowledge Distillation via the Target-aware Transformer [83.03578375615614]
本稿では,新しい一対一空間マッチング知識蒸留手法を提案する。
具体的には,教師の特徴のそれぞれのピクセルを,生徒の特徴の空間的位置すべてに蒸留する。
我々のアプローチは、様々なコンピュータビジョンベンチマークにおいて最先端の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-05-22T10:26:54Z) - Masked Visual Pre-training for Motor Control [118.18189211080225]
実世界の画像からの自己教師付き視覚前訓練は、画素から運動制御タスクを学習するのに有効である。
私たちはビジュアルエンコーダを凍結し、強化学習でニューラルネットワークコントローラをトレーニングします。
これは、モーター制御のために現実の画像を大規模に活用した初めての自己教師型モデルである。
論文 参考訳(メタデータ) (2022-03-11T18:58:10Z) - Transformers in Self-Supervised Monocular Depth Estimation with Unknown
Camera Intrinsics [13.7258515433446]
自己教師付き単眼深度推定は3次元シーン理解において重要な課題である。
自己教師付き単眼深度推定のための視覚変換器の適応方法を示す。
本研究は,トランスフォーマーをベースとしたアーキテクチャが,より堅牢で汎用性の高い性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-02-07T13:17:29Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z) - An Image is Worth 16x16 Words: Transformers for Image Recognition at
Scale [112.94212299087653]
ビジョントランスフォーマー(ViT)は、最先端の畳み込みネットワークと比較して優れた結果を得ると同時に、トレーニングする計算リソースを著しく少なくする。
論文 参考訳(メタデータ) (2020-10-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。