論文の概要: Scaling White-Box Transformers for Vision
- arxiv url: http://arxiv.org/abs/2405.20299v2
- Date: Fri, 31 May 2024 06:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 12:59:52.367823
- Title: Scaling White-Box Transformers for Vision
- Title(参考訳): ビジョンのためのWhite-Box変換器のスケーリング
- Authors: Jinrui Yang, Xianhang Li, Druv Pai, Yuyin Zhou, Yi Ma, Yaodong Yu, Cihang Xie,
- Abstract要約: CRATEは、圧縮およびスパース表現を学習するために設計されたホワイトボックストランスフォーマーアーキテクチャである。
我々はCRATE-$alpha$を提案し、CRATEアーキテクチャ設計におけるスパースコーディングブロックの戦略的かつ最小限の修正を特徴としている。
CRATE-$alpha$は、より大きなモデルサイズとデータセットで効果的にスケールできることを示します。
- 参考スコア(独自算出の注目度): 38.16232426299104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CRATE, a white-box transformer architecture designed to learn compressed and sparse representations, offers an intriguing alternative to standard vision transformers (ViTs) due to its inherent mathematical interpretability. Despite extensive investigations into the scaling behaviors of language and vision transformers, the scalability of CRATE remains an open question which this paper aims to address. Specifically, we propose CRATE-$\alpha$, featuring strategic yet minimal modifications to the sparse coding block in the CRATE architecture design, and a light training recipe designed to improve the scalability of CRATE. Through extensive experiments, we demonstrate that CRATE-$\alpha$ can effectively scale with larger model sizes and datasets. For example, our CRATE-$\alpha$-B substantially outperforms the prior best CRATE-B model accuracy on ImageNet classification by 3.7%, achieving an accuracy of 83.2%. Meanwhile, when scaling further, our CRATE-$\alpha$-L obtains an ImageNet classification accuracy of 85.1%. More notably, these model performance improvements are achieved while preserving, and potentially even enhancing the interpretability of learned CRATE models, as we demonstrate through showing that the learned token representations of increasingly larger trained CRATE-$\alpha$ models yield increasingly higher-quality unsupervised object segmentation of images. The project page is https://rayjryang.github.io/CRATE-alpha/.
- Abstract(参考訳): 圧縮およびスパース表現を学習するために設計されたホワイトボックストランスフォーマーアーキテクチャであるCRATEは、その固有の数学的解釈性から、標準ビジョントランスフォーマー(ViT)に代わる興味深い代替手段を提供する。
言語と視覚変換器のスケーリング動作について広範な調査が行われたが、CRATEのスケーラビリティは未解決の問題である。
具体的には、CRATEアーキテクチャ設計におけるスパースコーディングブロックの戦略的かつ最小限の変更を特徴とするCRATE-$\alpha$と、CRATEのスケーラビリティ向上を目的としたライトトレーニングレシピを提案する。
大規模な実験を通じて、CRATE-$\alpha$は、より大きなモデルサイズとデータセットで効果的にスケールできることを実証する。
例えば、われわれの CRATE-$\alpha$-B は ImageNet の分類において、これまでで最高の CRATE-B モデルの精度を3.7%上回っており、精度は83.2% である。
一方、さらなるスケーリングを行う場合、CRATE-$\alpha$-L は ImageNet の分類精度85.1% を得る。
さらに、これらのモデルの性能改善は、学習されたCRATEモデルの解釈可能性を高めることさえ可能であり、より大きく訓練されたCRATE-$\alpha$モデルの学習トークン表現が、画像の高品質な教師なしオブジェクトセグメンテーションをもたらすことを示した。
プロジェクトページはhttps://rayjryang.github.io/CRATE-alpha/。
関連論文リスト
- Hardware Resilience Properties of Text-Guided Image Classifiers [15.787551066303804]
本稿では,過渡的ハードウェアエラーに直面した配置中の画像分類モデルの信頼性を高める新しい手法を提案する。
当社のアプローチは,ハードウェアの信頼性の平均的な向上を目覚ましい5.5倍に達成しています。
論文 参考訳(メタデータ) (2023-11-23T15:38:13Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - Emergence of Segmentation with Minimalistic White-Box Transformers [22.688777622988795]
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。
本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。
この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
論文 参考訳(メタデータ) (2023-08-30T19:02:17Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Comparative study of Transformer and LSTM Network with attention
mechanism on Image Captioning [0.0]
本研究ではTransformerとLSTMをMS-COCOデータセットのアテンションブロックモデルと比較する。
注目ブロックモデルを用いたトランスフォーマーとLSTMについて,その精度について検討した。
論文 参考訳(メタデータ) (2023-03-05T11:45:53Z) - Robustifying Deep Vision Models Through Shape Sensitization [19.118696557797957]
そこで本研究では,ネットワークの全体像を学習するためのインセンティブを明示的に付与する,シンプルで軽量な対向拡張手法を提案する。
我々の拡張は、ランダムに決定された混合比を用いて、シャッフルパッチで、ある画像から別の画像へのエッジマップを重畳する。
この拡張により,データセットやニューラルアーキテクチャの分類精度とロバストネスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-11-14T11:17:46Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。