Fugu-MT 論文翻訳(概要): Scaling White-Box Transformers for Vision

論文の概要: Scaling White-Box Transformers for Vision

arxiv url: http://arxiv.org/abs/2405.20299v1
Date: Thu, 30 May 2024 17:46:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 13:00:01.287215
Title: Scaling White-Box Transformers for Vision
Title（参考訳）: ビジョンのためのWhite-Box変換器のスケーリング
Authors: Jinrui Yang, Xianhang Li, Druv Pai, Yuyin Zhou, Yi Ma, Yaodong Yu, Cihang Xie,
Abstract要約: CRATEは、圧縮およびスパース表現を学習するために設計されたホワイトボックストランスフォーマーアーキテクチャである。我々はCRATE-$alpha$を提案し、CRATEアーキテクチャ設計におけるスパースコーディングブロックの戦略的かつ最小限の修正を特徴としている。 CRATE-$alpha$は、より大きなモデルサイズとデータセットで効果的にスケールできることを示します。
参考スコア（独自算出の注目度）: 38.16232426299104
License: http://creativecommons.org/licenses/by/4.0/
Abstract: CRATE, a white-box transformer architecture designed to learn compressed and sparse representations, offers an intriguing alternative to standard vision transformers (ViTs) due to its inherent mathematical interpretability. Despite extensive investigations into the scaling behaviors of language and vision transformers, the scalability of CRATE remains an open question which this paper aims to address. Specifically, we propose CRATE-$\alpha$, featuring strategic yet minimal modifications to the sparse coding block in the CRATE architecture design, and a light training recipe designed to improve the scalability of CRATE. Through extensive experiments, we demonstrate that CRATE-$\alpha$ can effectively scale with larger model sizes and datasets. For example, our CRATE-$\alpha$-B substantially outperforms the prior best CRATE-B model accuracy on ImageNet classification by 3.7%, achieving an accuracy of 83.2%. Meanwhile, when scaling further, our CRATE-$\alpha$-L obtains an ImageNet classification accuracy of 85.1%. More notably, these model performance improvements are achieved while preserving, and potentially even enhancing the interpretability of learned CRATE models, as we demonstrate through showing that the learned token representations of increasingly larger trained CRATE-$\alpha$ models yield increasingly higher-quality unsupervised object segmentation of images. The project page is https://rayjryang.github.io/CRATE-alpha/.
Abstract（参考訳）: 圧縮およびスパース表現を学習するために設計されたホワイトボックストランスフォーマーアーキテクチャであるCRATEは、その固有の数学的解釈性から、標準ビジョントランスフォーマー(ViT)に代わる興味深い代替手段を提供する。言語と視覚変換器のスケーリング動作について広範な調査が行われたが、CRATEのスケーラビリティは未解決の問題である。具体的には、CRATEアーキテクチャ設計におけるスパースコーディングブロックの戦略的かつ最小限の変更を特徴とするCRATE-$\alpha$と、CRATEのスケーラビリティ向上を目的としたライトトレーニングレシピを提案する。大規模な実験を通じて、CRATE-$\alpha$は、より大きなモデルサイズとデータセットで効果的にスケールできることを実証する。例えば、われわれの CRATE-$\alpha$-B は ImageNet の分類において、これまでで最高の CRATE-B モデルの精度を3.7%上回っており、精度は83.2% である。一方、さらなるスケーリングを行う場合、CRATE-$\alpha$-L は ImageNet の分類精度85.1% を得る。さらに、これらのモデルの性能改善は、学習されたCRATEモデルの解釈可能性を高めることさえ可能であり、より大きく訓練されたCRATE-$\alpha$モデルの学習トークン表現が、画像の高品質な教師なしオブジェクトセグメンテーションをもたらすことを示した。プロジェクトページはhttps://rayjryang.github.io/CRATE-alpha/。

関連論文リスト

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders [74.72147962028265]
表現オートエンコーダ(RAE)は、ImageNet上で拡散モデリングにおいて明確な利点を示している。本稿では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
論文参考訳（メタデータ） (2026-01-22T18:58:16Z)
Do We Need Reformer for Vision? An Experimental Comparison with Vision Transformers [0.0]
ビジョントランスフォーマー(ViT)は、低レベル画像と高レベル画像の両方をキャプチャするために自己アテンションを利用する。標準的なViTは、グローバルな自己注意はトークンの数と2倍にスケールするため、計算コストがかかるままである。本稿では,代替ビジョンバックボーンとしてのReformerアーキテクチャについて検討する。
論文参考訳（メタデータ） (2025-12-12T03:49:55Z)
Edge-Enhanced Vision Transformer Framework for Accurate AI-Generated Image Detection [0.0]
本稿では,視覚変換器(ViT)と新たなエッジベース画像処理モジュールを組み合わせたハイブリッド検出フレームワークを提案する。提案手法は,自動コンテンツ検証とデジタル法医学における実世界の応用に非常に適している。
論文参考訳（メタデータ） (2025-08-25T10:30:56Z)
CoCAViT: Compact Vision Transformer with Robust Global Coordination [8.041959685852085]
本稿では,堅牢なリアルタイム視覚表現のために設計された新しい視覚バックボーンであるCoCAViTを提案する。 224*224の解像度で、CoCAViT-28MはImageNet-1Kで84.0%のトップ-1の精度を達成した。また、オブジェクト検出では52.2 mAP、ADE20Kセマンティックセグメンテーションでは51.3 mIOU、低レイテンシでは維持できる。
論文参考訳（メタデータ） (2025-08-07T12:07:12Z)
DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images [14.448350657613368]
DeeCLIPはAI生成画像を検出するための新しいフレームワークである。 DeeFuserは、高レベルと低レベルの機能を組み合わせたフュージョンモジュールである。 4クラスのProGANデータのみをトレーニングし,平均精度は89.90%に達した。
論文参考訳（メタデータ） (2025-04-28T15:06:28Z)
C2D-ISR: Optimizing Attention-based Image Super-resolution from Continuous to Discrete Scales [6.700548615812325]
我々は、注目に基づく画像超解像モデルの最適化のための新しいフレームワーク、textbfC2D-ISRを提案する。このアプローチは、2段階のトレーニング手法と階層的なエンコーディング機構に基づいている。さらに,既存のアテンションベースネットワーク構造を用いて階層符号化機構を一般化する。
論文参考訳（メタデータ） (2025-03-17T21:52:18Z)
Efficient Transformer for High Resolution Image Motion Deblurring [0.0]
本稿では,高分解能イメージモーションデブロアに対するRestormerアーキテクチャの総合的研究と改良について述べる。モデル複雑性を18.4%削減し、最適化された注意機構によって性能を維持または改善するアーキテクチャ変更を導入する。以上の結果から, 思考的アーキテクチャの単純化と学習戦略の強化が組み合わさって, より効率的かつ等しく機能的な作業モデルが得られることが示唆された。
論文参考訳（メタデータ） (2025-01-30T14:58:33Z)
Hardware Resilience Properties of Text-Guided Image Classifiers [15.787551066303804]
本稿では,過渡的ハードウェアエラーに直面した配置中の画像分類モデルの信頼性を高める新しい手法を提案する。当社のアプローチは,ハードウェアの信頼性の平均的な向上を目覚ましい5.5倍に達成しています。
論文参考訳（メタデータ） (2023-11-23T15:38:13Z)
Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文参考訳（メタデータ） (2023-10-08T06:10:09Z)
ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文参考訳（メタデータ） (2023-09-22T22:12:30Z)
Emergence of Segmentation with Minimalistic White-Box Transformers [22.688777622988795]
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
論文参考訳（メタデータ） (2023-08-30T19:02:17Z)
Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文参考訳（メタデータ） (2023-05-11T16:42:24Z)
Comparative study of Transformer and LSTM Network with attention mechanism on Image Captioning [0.0]
本研究ではTransformerとLSTMをMS-COCOデータセットのアテンションブロックモデルと比較する。注目ブロックモデルを用いたトランスフォーマーとLSTMについて,その精度について検討した。
論文参考訳（メタデータ） (2023-03-05T11:45:53Z)
Robustifying Deep Vision Models Through Shape Sensitization [19.118696557797957]
そこで本研究では,ネットワークの全体像を学習するためのインセンティブを明示的に付与する,シンプルで軽量な対向拡張手法を提案する。我々の拡張は、ランダムに決定された混合比を用いて、シャッフルパッチで、ある画像から別の画像へのエッジマップを重畳する。この拡張により,データセットやニューラルアーキテクチャの分類精度とロバストネスが大幅に向上することを示す。
論文参考訳（メタデータ） (2022-11-14T11:17:46Z)
Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。 LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2022-09-26T22:22:30Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Cross-receptive Focused Inference Network for Lightweight Image Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文参考訳（メタデータ） (2022-07-06T16:32:29Z)
XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文参考訳（メタデータ） (2021-06-17T17:33:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。