論文の概要: Alias-Free ViT: Fractional Shift Invariance via Linear Attention
- arxiv url: http://arxiv.org/abs/2510.22673v1
- Date: Sun, 26 Oct 2025 13:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.319922
- Title: Alias-Free ViT: Fractional Shift Invariance via Linear Attention
- Title(参考訳): Alias-free ViT: 線形注意によるフラクショナルシフト不変性
- Authors: Hagay Michaeli, Daniel Soudry,
- Abstract要約: ビジョントランスフォーマー(ViT)はトランスフォーメーション不変ではなく、標準のコンブネットよりも小さな画像変換に敏感である。
本モデルは,画像分類における競合性能を維持し,対向翻訳に対する堅牢性の観点から,類似サイズのモデルより優れる。
- 参考スコア(独自算出の注目度): 22.173188565185857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have emerged as a competitive alternative to convnets in vision tasks, yet they lack the architectural inductive bias of convnets, which may hinder their potential performance. Specifically, Vision Transformers (ViTs) are not translation-invariant and are more sensitive to minor image translations than standard convnets. Previous studies have shown, however, that convnets are also not perfectly shift-invariant, due to aliasing in downsampling and nonlinear layers. Consequently, anti-aliasing approaches have been proposed to certify convnets' translation robustness. Building on this line of work, we propose an Alias-Free ViT, which combines two main components. First, it uses alias-free downsampling and nonlinearities. Second, it uses linear cross-covariance attention that is shift-equivariant to both integer and fractional translations, enabling a shift-invariant global representation. Our model maintains competitive performance in image classification and outperforms similar-sized models in terms of robustness to adversarial translations.
- Abstract(参考訳): トランスフォーマーは、視覚タスクにおけるコブネットの競合代替として登場したが、コブネットのアーキテクチャ的帰納バイアスが欠如しており、その潜在的な性能を阻害する可能性がある。
具体的には、ビジョントランスフォーマー(ViT)はトランスフォーメーション不変ではなく、標準のコンブネットよりも小さな画像変換に敏感である。
しかし、以前の研究では、コブネットはダウンサンプリング層や非線形層でのエイリアスのため、完全にシフト不変ではないことが示されている。
その結果、コンブネットの翻訳堅牢性を証明するためのアンチエイリアス手法が提案されている。
そこで本研究では,2つの主要コンポーネントを組み合わせたAlias-Free ViTを提案する。
まず、エイリアスフリーのダウンサンプリングと非線形性を使用する。
第二に、これは整数変換と分数変換の両方に等しいシフト不変な線形クロス共分散アテンションを使用し、シフト不変な大域的表現を可能にする。
本モデルは,画像分類における競合性能を維持し,対向翻訳に対する堅牢性の観点から,類似サイズのモデルより優れる。
関連論文リスト
- Reviving Shift Equivariance in Vision Transformers [12.720600348466498]
本稿では,視覚変換器モデルにシームレスに統合可能な適応型多相アンカーアルゴリズムを提案する。
我々のアルゴリズムは、ViTとその変種であるTwinsを、入力シフトに関して100%整合性を達成することができる。
論文 参考訳(メタデータ) (2023-06-13T00:13:11Z) - Making Vision Transformers Truly Shift-Equivariant [20.61570323513044]
ビジョントランスフォーマー (ViT) は、コンピュータビジョンのためのディープネットアーキテクチャの1つとなっている。
トークン化,自己アテンション,パッチマージ,位置エンコーディングなど,各モジュールに対する新しいデータ適応設計を導入する。
画像分類とセマンティックセグメンテーションタスクにおける適応モデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-25T17:59:40Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - UTSGAN: Unseen Transition Suss GAN for Transition-Aware Image-to-image
Translation [57.99923293611923]
我々はI2Iトランスフォーメーションに対してトランジッションアウェアアプローチを導入し、データトランスフォーメーションマッピングをトランジッション変数で明示的にパラメータ化する。
本稿では、遷移変数に定義された遷移整合性を利用することにより、観測されていない翻訳における整合性の正規化を可能にする。
これらの知見に基づき、遷移エンコーダを用いた遷移のための多様体を構成する生成フレームワークである Unseen transition Suss GAN (UTSGAN) を提案する。
論文 参考訳(メタデータ) (2023-04-24T09:47:34Z) - Alias-Free Convnets: Fractional Shift Invariance via Polynomial
Activations [53.399996863034424]
CNNは翻訳に不変であると考えられている。
ダウンサンプリング層と非線形層の両方に対処する拡張アンチエイリアス手法を提案する。
提案したモデルが整数や分数変換(サブピクセル)に不変であることを示す。
論文 参考訳(メタデータ) (2023-03-14T17:16:16Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Group Equivariant Subsampling [60.53371517247382]
サブサンプリングは、プールやストライド畳み込みの形で畳み込みニューラルネットワーク(CNN)で使用される。
まず、正確な翻訳同変CNNを構築するために使用できる翻訳同変サブサンプリング/アップサンプリング層を導入する。
次に、これらの層を一般群への変換を超えて一般化し、したがって群同変部分サンプリング/アップサンプリングを提案する。
論文 参考訳(メタデータ) (2021-06-10T16:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。