論文の概要: Number of Attention Heads vs Number of Transformer-Encoders in Computer
Vision
- arxiv url: http://arxiv.org/abs/2209.07221v1
- Date: Thu, 15 Sep 2022 11:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:15:29.516771
- Title: Number of Attention Heads vs Number of Transformer-Encoders in Computer
Vision
- Title(参考訳): コンピュータビジョンにおける注意ヘッド数とトランスフォーマーエンコーダ数
- Authors: Tomas Hrycej, Bernhard Bermeitinger, Siegfried Handschuh
- Abstract要約: クラスが画像内のコンテキストに大きく依存する可能性があるオブジェクトの分類において、頭数とトランスフォーマーの数が等しく重要である。
クラスが画像内のコンテキストに大きく依存する可能性があるオブジェクトを分類する場合、頭数が少ない複数のトランスフォーマーを使用することが好ましい。
- 参考スコア(独自算出の注目度): 8.036150169408241
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Determining an appropriate number of attention heads on one hand and the
number of transformer-encoders, on the other hand, is an important choice for
Computer Vision (CV) tasks using the Transformer architecture. Computing
experiments confirmed the expectation that the total number of parameters has
to satisfy the condition of overdetermination (i.e., number of constraints
significantly exceeding the number of parameters). Then, good generalization
performance can be expected. This sets the boundaries within which the number
of heads and the number of transformers can be chosen. If the role of context
in images to be classified can be assumed to be small, it is favorable to use
multiple transformers with a low number of heads (such as one or two). In
classifying objects whose class may heavily depend on the context within the
image (i.e., the meaning of a patch being dependent on other patches), the
number of heads is equally important as that of transformers.
- Abstract(参考訳): 一方、適切な注意ヘッド数とトランスフォーマーエンコーダ数を決定することは、トランスフォーマーアーキテクチャを用いたコンピュータビジョン(cv)タスクにとって重要な選択である。
計算実験により、パラメータの総数が過剰決定条件(つまりパラメータ数を大幅に超える制約数)を満たさなければならないという期待が確認された。
そして、優れた一般化性能が期待できる。
これにより、頭数と変圧器の数を選択することができる境界を設定する。
分類される画像における文脈の役割が小さいと仮定すれば、少ない数の頭を持つ複数の変換器(例えば1つか2つ)を使用することが好ましい。
クラスが画像内のコンテキストに大きく依存する可能性があるオブジェクト(つまり、他のパッチに依存するパッチの意味)を分類する場合、頭部の数は変換器のそれと同程度に重要である。
関連論文リスト
- SparseSwin: Swin Transformer with Sparse Transformer Block [1.7243216387069678]
本稿では,パラメータ数を削減し,変換器をより効率的にすることを目的とする。
Sparse Transformer (SparTa) Block は,スパーストークンコンバータを付加した改良型トランスブロックである。
提案されたSparseSwinモデルは、イメージNet100、CIFAR10、CIFAR100のデータセットでそれぞれ86.96%、97.43%、85.35%の精度で、画像分類における他の技術モデルよりも優れている。
論文 参考訳(メタデータ) (2023-09-11T04:03:43Z) - Key-Value Transformer [47.64219291655723]
キー値定式化(KV)は2次元位置符号化をアテンション行列に組み込んだ非対称版とともに対称アテンションマップを生成する。
実験には3つのタスクタイプ - 合成(リストの反転やソートなど)、視覚(mnistまたはcifar classification)、NLP - が含まれる。
論文 参考訳(メタデータ) (2023-05-28T20:26:06Z) - Machine Learning for Brain Disorders: Transformers and Visual
Transformers [4.186575888568896]
トランスフォーマーは当初、自然言語処理(NLP)タスク用に導入されたが、コンピュータビジョンを含む多くのディープラーニング分野に急速に採用された。
本稿では、注意機構(Section 1)を導入し、次にビジョン変換器を含む基本変換器ブロックを紹介する。
最後に,画像分類以外のタスク,例えば検出,セグメンテーション,生成,ラベルなしのトレーニングに適用されるVisual Transformerを紹介する。
論文 参考訳(メタデータ) (2023-03-21T17:57:33Z) - Conviformers: Convolutionally guided Vision Transformer [5.964436882344729]
本稿では,草本シートから植物を細粒度に分類するシステムを開発するための重要な要素を詳細に分析し,解説する。
Conviformerと呼ばれる畳み込みトランスアーキテクチャを導入し、一般的なVision Transformer(ConViT)とは異なり、メモリや計算コストを犠牲にすることなく高解像度画像を処理できる。
単純だが効果的なアプローチで、Herbarium 202xとiNaturalist 2019データセットでSoTAを達成しました。
論文 参考訳(メタデータ) (2022-08-17T13:09:24Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。