論文の概要: ViT Registers and Fractal ViT
- arxiv url: http://arxiv.org/abs/2601.15506v1
- Date: Wed, 21 Jan 2026 22:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.4346
- Title: ViT Registers and Fractal ViT
- Title(参考訳): ViTレジスタとフラクタル ViT
- Authors: Jason Chuan-Chih Chou, Abhinav Kumar, Shivank Garg,
- Abstract要約: 我々は、フラクタル ViT と呼ばれる大型ビジョントランス (ViT) の変種を発明し、試験する。
これらのモデルはレジスタ付きViTでは改善されず、これらの発見がスケール、ドメイン、アプリケーション固有のものであることを強調している。
- 参考スコア(独自算出の注目度): 7.970267053011483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drawing inspiration from recent findings including surprisingly decent performance of transformers without positional encoding (NoPE) in the domain of language models and how registers (additional throwaway tokens not tied to input) may improve the performance of large vision transformers (ViTs), we invent and test a variant of ViT called fractal ViT that breaks permutation invariance among the tokens by applying an attention mask between the regular tokens and ``summary tokens'' similar to registers, in isolation or in combination with various positional encodings. These models do not improve upon ViT with registers, highlighting the fact that these findings may be scale, domain, or application-specific.
- Abstract(参考訳): 言語モデルの領域における位置エンコーディング(NoPE)のないトランスフォーマーの驚くほどまともなパフォーマンスや、レジスタ(入力に結び付けられない追加のスローアウトトークン)が大きなビジョントランスフォーマー(ViT)の性能を改善することを含む最近の知見からインスピレーションを得て、通常のトークン間に注意マスクを印加し、様々な位置エンコーディングと組み合わせることで、トークン間の不変性を損なうフラクタルViTと呼ばれるViTの変種を発明し、テストする。
これらのモデルはレジスタ付きViTでは改善されず、これらの発見がスケール、ドメイン、アプリケーション固有のものであることを強調している。
関連論文リスト
- Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文 参考訳(メタデータ) (2021-11-20T01:49:56Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。