論文の概要: Accelerating Vision Transformers with Adaptive Patch Sizes
- arxiv url: http://arxiv.org/abs/2510.18091v1
- Date: Mon, 20 Oct 2025 20:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.56387
- Title: Accelerating Vision Transformers with Adaptive Patch Sizes
- Title(参考訳): 適応的パッチサイズによる視覚変換器の高速化
- Authors: Rohan Choudhury, JungEun Kim, Jinhyung Park, Eunho Yang, László A. Jeni, Kris M. Kitani,
- Abstract要約: Vision Transformerは、入力画像をコンテンツに関係なく一様サイズのパッチに分割する。
適応パッチ変換器(APT)は,複数の異なるパッチサイズを同一画像内で使用することで,この問題に対処する。
APTはViT推論とトレーニングの大幅な高速化を実現し、ViT-Lでは40%、ViT-Hでは50%のスループット向上を実現している。
- 参考スコア(独自算出の注目度): 58.48800204993534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) partition input images into uniformly sized patches regardless of their content, resulting in long input sequence lengths for high-resolution images. We present Adaptive Patch Transformers (APT), which addresses this by using multiple different patch sizes within the same image. APT reduces the total number of input tokens by allocating larger patch sizes in more homogeneous areas and smaller patches in more complex ones. APT achieves a drastic speedup in ViT inference and training, increasing throughput by 40% on ViT-L and 50% on ViT-H while maintaining downstream performance, and can be applied to a previously fine-tuned ViT, converging in as little as 1 epoch. It also significantly reduces training and inference time without loss of performance in high-resolution dense visual tasks, achieving up to 30\% faster training and inference in visual QA, object detection, and semantic segmentation.
- Abstract(参考訳): 視覚変換器(ViT)は、入力画像を内容に関わらず一様に大きさのパッチに分割し、高解像度画像に対して長い入力シーケンス長をもたらす。
適応パッチ変換器(APT)は,複数の異なるパッチサイズを同一画像内で使用することで,この問題に対処する。
APTは、より均一な領域でより大きなパッチサイズを割り当て、より複雑な領域でより小さなパッチを割り当てることで、入力トークンの総数を削減する。
APTはViT推論とトレーニングの大幅な高速化を実現し、下流性能を維持しながらViT-Lで40%、ViT-Hで50%のスループット向上を実現し、より微調整されたViTに適用できる。
また、高精細度視覚タスクのパフォーマンスを損なうことなく、トレーニングと推論時間を著しく短縮し、視覚的QA、オブジェクト検出、セマンティックセグメンテーションにおけるトレーニングと推論を最大30%高速化する。
関連論文リスト
- Charm: The Missing Piece in ViT fine-tuning for Image Aesthetic Assessment [36.633379840639314]
視覚変換器(ViT)は通常、ダウンスケーリングやトリミングによって得られる小さな、固定サイズの画像に基づいて訓練される。
本稿では,コンポジション,高解像度,アスペクト比,マルチスケール情報を同時に保存する新しいトークン化手法であるCharmを紹介する。
Charmは画像美的評価のためのViT性能と一般化性を改善する。
論文 参考訳(メタデータ) (2025-04-03T12:19:04Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。