Fugu-MT 論文翻訳(概要): Going deeper with Image Transformers

論文の概要: Going deeper with Image Transformers

arxiv url: http://arxiv.org/abs/2103.17239v1
Date: Wed, 31 Mar 2021 17:37:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-01 14:29:07.002350
Title: Going deeper with Image Transformers
Title（参考訳）: Image Transformersでさらに深く
Authors: Hugo Touvron, Matthieu Cord, Alexandre Sablayrolles, Gabriel Synnaeve, Herv\'e J\'egou
Abstract要約: 我々は画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。私たちの最高のモデルは、再評価ラベルとImagenet-V2 /マッチ周波数を備えたImagenetの新しい状態を確立します。
参考スコア（独自算出の注目度）: 102.61950708108022
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers have been recently adapted for large scale image classification, achieving high scores shaking up the long supremacy of convolutional neural networks. However the optimization of image transformers has been little studied so far. In this work, we build and optimize deeper transformer networks for image classification. In particular, we investigate the interplay of architecture and optimization of such dedicated transformers. We make two transformers architecture changes that significantly improve the accuracy of deep transformers. This leads us to produce models whose performance does not saturate early with more depth, for instance we obtain 86.3% top-1 accuracy on Imagenet when training with no external data. Our best model establishes the new state of the art on Imagenet with Reassessed labels and Imagenet-V2 / match frequency, in the setting with no additional training data.
Abstract（参考訳）: 変換器は近年,畳み込みニューラルネットワークの長期優位性を高めるために,大規模な画像分類に適応している。しかし、画像変換器の最適化は今のところほとんど研究されていない。本研究では,画像分類のためのより深いトランスフォーマーネットワークを構築し最適化する。特に,このような専用変圧器のアーキテクチャと最適化の相互作用について検討する。深部変圧器の精度を大幅に向上する2つの変圧器アーキテクチャ変更を行う。例えば、外部データを持たないトレーニングでは、Imagenet上で86.3%のトップ-1の精度が得られる。私たちの最善のモデルは、再評価ラベルとimagenet-v2/match周波数を、追加のトレーニングデータなしで設定することで、imagenetの新たな最先端を確立します。

関連論文リスト

SpectFormer: Frequency and Attention is what you need in a Vision Transformer [28.01996628113975]
視覚変換器は画像認識タスクにうまく応用されている。スペクトルとマルチヘッドの両方が重要な役割を担っていると仮定する。本稿では,スペクトル層と多頭部アテンション層を組み合わせたトランスフォーマーのための新しいSpectformerアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-04-13T12:27:17Z)
Boosting vision transformers for image retrieval [11.441395750267052]
視覚変換器は画像分類や検出などの視覚タスクにおいて顕著な進歩を遂げている。しかし、インスタンスレベルの画像検索では、変換器は畳み込みネットワークと比較してまだ良い性能を示していない。本稿では,トランスフォーマーがアートの状態を初めて上回るような改良をいくつか提案する。
論文参考訳（メタデータ） (2022-10-21T12:17:12Z)
On the Surprising Effectiveness of Transformers in Low-Labeled Video Recognition [18.557920268145818]
ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
論文参考訳（メタデータ） (2022-09-15T17:12:30Z)
Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。 PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文参考訳（メタデータ） (2022-08-25T17:59:29Z)
Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャはコンピュータビジョンにおいて急速に勢いを増しています視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文参考訳（メタデータ） (2022-03-18T08:23:03Z)
Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。 CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文参考訳（メタデータ） (2021-11-22T09:28:13Z)
Transformer-Based Deep Image Matching for Generalizable Person Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文参考訳（メタデータ） (2021-05-30T05:38:33Z)
Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文参考訳（メタデータ） (2021-04-22T04:43:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。