論文の概要: Do We Need Reformer for Vision? An Experimental Comparison with Vision Transformers
- arxiv url: http://arxiv.org/abs/2512.11260v1
- Date: Fri, 12 Dec 2025 03:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.646261
- Title: Do We Need Reformer for Vision? An Experimental Comparison with Vision Transformers
- Title(参考訳): ヴィジュアル・コンバータは必要か? : ヴィジュアル・トランスとの比較
- Authors: Ali El Bellaj, Mohammed-Amine Cheddadi, Rhassan Berber,
- Abstract要約: ビジョントランスフォーマー(ViT)は、低レベル画像と高レベル画像の両方をキャプチャするために自己アテンションを利用する。
標準的なViTは、グローバルな自己注意はトークンの数と2倍にスケールするため、計算コストがかかるままである。
本稿では,代替ビジョンバックボーンとしてのReformerアーキテクチャについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have recently demonstrated strong performance in computer vision, with Vision Transformers (ViTs) leveraging self-attention to capture both low-level and high-level image features. However, standard ViTs remain computationally expensive, since global self-attention scales quadratically with the number of tokens, which limits their practicality for high-resolution inputs and resource-constrained settings. In this work, we investigate the Reformer architecture as an alternative vision backbone. By combining patch-based tokenization with locality-sensitive hashing (LSH) attention, our model approximates global self-attention while reducing its theoretical time complexity from $\mathcal{O}(n^2)$ to $\mathcal{O}(n \log n)$ in the sequence length $n$. We evaluate the proposed Reformer-based vision model on CIFAR-10 to assess its behavior on small-scale datasets, on ImageNet-100 to study its accuracy--efficiency trade-off in a more realistic setting, and on a high-resolution medical imaging dataset to evaluate the model under longer token sequences. While the Reformer achieves higher accuracy on CIFAR-10 compared to our ViT-style baseline, the ViT model consistently outperforms the Reformer in our experiments in terms of practical efficiency and end-to-end computation time across the larger and higher-resolution settings. These results suggest that, despite the theoretical advantages of LSH-based attention, meaningful computation gains require sequence lengths substantially longer than those produced by typical high-resolution images.
- Abstract(参考訳): トランスフォーマーは最近、コンピュータビジョンにおいて強力なパフォーマンスを示しており、ビジョントランスフォーマー(ViT)は、低レベルと高レベルの両方のイメージ特徴をキャプチャするために自己アテンションを活用している。
しかし、標準的なViTは、高精細な入力やリソース制約のある設定の実用性を制限するトークンの数で、グローバルな自己保持スケールが2倍に大きくなるため、計算コストがかかるままである。
本稿では,代替ビジョンバックボーンとしてのReformerアーキテクチャについて検討する。
パッチベースのトークン化とLSH(Locality-sensitive hashing)の注意を組み合わせることで、理論的な時間的複雑さを$\mathcal{O}(n^2)$から$\mathcal{O}(n \log n)$に減らしながら、グローバルな自己注意を近似する。
提案したCIFAR-10による視覚モデルの評価を行い,小型データセット,ImageNet-100を用いて,より現実的な環境での精度-効率トレードオフ,より長いトークンシーケンス下でのモデル評価のための高精度な医用画像データセットについて検討した。
ViTモデルでは,CIFAR-10の精度がViTスタイルのベースラインよりも高いのに対して,より大規模かつ高解像度な設定において,実用的効率とエンドツーエンドの計算時間の観点から,改良版を一貫して上回っている。
これらの結果は、LSHに基づく注目の理論的優位性にもかかわらず、有意義な計算ゲインは、典型的な高解像度画像よりもかなり長いシーケンス長を必要とすることを示唆している。
関連論文リスト
- Kinetics: Rethinking Test-Time Scaling Laws [18.325591438335007]
Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。
そこで本研究では,スパークアテンションに着目した新しいスケーリングパラダイムを提案し,コストを削減し,より長い世代とより並列なサンプルを実現する。
論文 参考訳(メタデータ) (2025-06-05T17:59:24Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。