論文の概要: Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More
- arxiv url: http://arxiv.org/abs/2502.03738v1
- Date: Thu, 06 Feb 2025 03:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:45.915002
- Title: Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More
- Title(参考訳): パッチ化の法則をスケールする:イメージは50,176トン以上価値ある
- Authors: Feng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie,
- Abstract要約: 本稿では,パッチ方式による圧縮符号化のパラダイムによる情報損失について検討する。
我々は広範囲にわたるパッチサイズスケーリング実験を行い、パッチ化における興味深いスケーリング法則を興奮的に観察する。
副産物として、より小さいパッチでは、タスク固有のデコーダヘッドは、より密集した予測では重要でないことが分かる。
- 参考スコア(独自算出の注目度): 34.12661784331014
- License:
- Abstract: Since the introduction of Vision Transformer (ViT), patchification has long been regarded as a de facto image tokenization approach for plain visual architectures. By compressing the spatial size of images, this approach can effectively shorten the token sequence and reduce the computational cost of ViT-like plain architectures. In this work, we aim to thoroughly examine the information loss caused by this patchification-based compressive encoding paradigm and how it affects visual understanding. We conduct extensive patch size scaling experiments and excitedly observe an intriguing scaling law in patchification: the models can consistently benefit from decreased patch sizes and attain improved predictive performance, until it reaches the minimum patch size of 1x1, i.e., pixel tokenization. This conclusion is broadly applicable across different vision tasks, various input scales, and diverse architectures such as ViT and the recent Mamba models. Moreover, as a by-product, we discover that with smaller patches, task-specific decoder heads become less critical for dense prediction. In the experiments, we successfully scale up the visual sequence to an exceptional length of 50,176 tokens, achieving a competitive test accuracy of 84.6% with a base-sized model on the ImageNet-1k benchmark. We hope this study can provide insights and theoretical foundations for future works of building non-compressive vision models. Code is available at https://github.com/wangf3014/Patch_Scaling.
- Abstract(参考訳): ViT(Vision Transformer)が導入されて以来、パッチ化は一般的なビジュアルアーキテクチャにおける事実上の画像トークン化アプローチとみなされてきた。
画像の空間的サイズを圧縮することにより、トークンシーケンスを効果的に短縮し、ViTのようなプレーンアーキテクチャの計算コストを削減できる。
本研究は, このパッチ化に基づく圧縮符号化パラダイムによる情報損失とその視覚的理解への影響について, 徹底的に検討することを目的とする。
我々は、パッチサイズを拡大し、パッチ化における興味深いスケーリング法則を興奮的に観察する: モデルは、最小のパッチサイズであるピクセルトークン化に到達するまで、一貫してパッチサイズを減らし、予測性能を向上させることができる。
この結論は、様々な視覚タスク、様々な入力スケール、ViTや最近のMambaモデルのような多様なアーキテクチャに広く適用できる。
さらに、副産物として、タスク固有のデコーダヘッドがより小さいパッチで、より密集した予測にはあまり重要でないことが判明した。
実験では,画像Net-1kベンチマークのベースサイズモデルを用いて,画像シーケンスを50,176トークンにスケールアップし,84.6%の競合テスト精度を実現した。
本研究は,非圧縮型視覚モデルの構築に向けた今後の研究の洞察と理論的基礎を提供することができることを願っている。
コードはhttps://github.com/wangf3014/Patch_Scaling.comで入手できる。
関連論文リスト
- Next Patch Prediction for Autoregressive Visual Generation [58.73461205369825]
自動回帰画像生成のためのNPP(Next Patch Prediction)パラダイムを提案する。
私たちのキーとなるアイデアは、画像トークンを高情報密度のパッチトークンにまとめて集約することです。
パッチトークンを短い入力シーケンスとして、自己回帰モデルを訓練して次のパッチを予測することにより、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-12-19T18:59:36Z) - Patch Gradient Descent: Training Neural Networks on Very Large Images [13.969180905165533]
大規模画像上で既存のCNNアーキテクチャを学習するためのパッチグラディエントDescent(PatchGD)を提案する。
PatchGDは、画像全体の勾配ベースの更新を一度に実行する代わりに、画像の小さな部分のみでモデル更新を行うことで、優れたソリューションを実現することができる、という仮説に基づいている。
評価の結果,PatchGDは大きな画像を扱う際の標準勾配差法よりも安定かつ効率的であることがわかった。
論文 参考訳(メタデータ) (2023-01-31T18:04:35Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - PatchDropout: Economizing Vision Transformers Using Patch Dropout [9.243684409949436]
入力画像パッチをランダムにドロップすることで、標準のViTモデルを高解像度で効率的に訓練できることを示す。
我々はPatchDropoutを使って計算とメモリの5倍の節約と性能の向上を観察する。
論文 参考訳(メタデータ) (2022-08-10T14:08:55Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers [9.63371509052453]
本稿では、視覚変換器(ViT)におけるパッチ・クラスタ・アテンション(PaCa)の学習を提案する。
提案したPaCaモジュールは、効率的かつ解釈可能なViTバックボーンとセマンティックセグメンテーションヘッドネットワークの設計に使用される。
線形複雑性のため、MS-COCOやMIT-ADE20kのPVTモデルよりもはるかに効率的である。
論文 参考訳(メタデータ) (2022-03-22T18:28:02Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。