論文の概要: ImagePiece: Content-aware Re-tokenization for Efficient Image Recognition
- arxiv url: http://arxiv.org/abs/2412.16491v1
- Date: Sat, 21 Dec 2024 05:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:48.432566
- Title: ImagePiece: Content-aware Re-tokenization for Efficient Image Recognition
- Title(参考訳): ImagePiece: 効率的な画像認識のためのコンテンツ認識再学習
- Authors: Seungdong Yoa, Seungjun Lee, Hyeseung Cho, Bumsoo Kim, Woohyung Lim,
- Abstract要約: ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンタスクにおいて顕著な成功を収めた。
最近の研究は、トークンの数を減らし、効果的にプーンしたりマージする方法に重点を置いている。
本稿では,視覚変換器の新たな再トークン化戦略であるImagePieceを提案する。
- 参考スコア(独自算出の注目度): 8.07235516190038
- License:
- Abstract: Vision Transformers (ViTs) have achieved remarkable success in various computer vision tasks. However, ViTs have a huge computational cost due to their inherent reliance on multi-head self-attention (MHSA), prompting efforts to accelerate ViTs for practical applications. To this end, recent works aim to reduce the number of tokens, mainly focusing on how to effectively prune or merge them. Nevertheless, since ViT tokens are generated from non-overlapping grid patches, they usually do not convey sufficient semantics, making it incompatible with efficient ViTs. To address this, we propose ImagePiece, a novel re-tokenization strategy for Vision Transformers. Following the MaxMatch strategy of NLP tokenization, ImagePiece groups semantically insufficient yet locally coherent tokens until they convey meaning. This simple retokenization is highly compatible with previous token reduction methods, being able to drastically narrow down relevant tokens, enhancing the inference speed of DeiT-S by 54% (nearly 1.5$\times$ faster) while achieving a 0.39% improvement in ImageNet classification accuracy. For hyper-speed inference scenarios (with 251% acceleration), our approach surpasses other baselines by an accuracy over 8%.
- Abstract(参考訳): ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンタスクにおいて顕著な成功を収めた。
しかし、ViTはMHSA(Multi-head self-attention)に依存しているため、膨大な計算コストがかかるため、実用化のためにViTを加速する努力が促される。
この目的のために、最近の研究はトークンの数を減らすことを目的としており、主に効果的にプーンしたりマージする方法に焦点を当てている。
それでも、ViTトークンはオーバーラップしないグリッドパッチから生成されるため、通常は十分なセマンティクスを伝達せず、効率的なViTと互換性がない。
そこで我々は,視覚変換器の新たな再学習戦略であるImagePieceを提案する。
NLPトークン化のMaxMatch戦略に従い、ImagePieceグループは意味を伝達するまで意味的に不十分だが局所的に一貫性のあるトークンを提供する。
この単純な再トークン化は、従来のトークン削減手法と互換性が高く、関連するトークンを大幅に絞り込み、DeiT-Sの推論速度を54%向上し(約1.5$\times$ faster)、ImageNetの分類精度が0.39%向上した。
超高速推論のシナリオでは(251%の加速)、我々の手法は8%以上の精度で他のベースラインを超えている。
関連論文リスト
- LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation [30.343504537684755]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、リソースに制約のあるデバイスへの展開は依然として困難である。
ViTを高速化するために、トークンのプルーニングとトークンのマージアプローチが開発され、計算に関わるトークンの数を減らすことを目的としている。
本稿では,効率的なViTのためのモデル効率と情報保存のバランスをとることの課題を解決するために,グラフベースの新しいToken Propagation(GTP)手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T11:14:19Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - Make A Long Image Short: Adaptive Token Length for Vision Transformers [5.723085628967456]
本稿では、長い画像の短縮によるViTモデルを高速化するための革新的なアプローチを提案する。
具体的には、テスト時に各画像に対してトークン長を適応的に割り当て、推論速度を高速化する手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T08:10:17Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Not All Patches are What You Need: Expediting Vision Transformers via
Token Reorganizations [37.11387992603467]
ViT(Vision Transformer)は、すべてのイメージパッチをトークンとして取り込んで、MHSA(Multi-head Self-attention)を構築する。
例えば、意味的に無意味な画像背景を含むトークンがある。
本稿では、トレーニング中にViTに統合されたVTモデルのフィードフォワードプロセス中に画像トークンを再編成することを提案する。
論文 参考訳(メタデータ) (2022-02-16T00:19:42Z) - Make A Long Image Short: Adaptive Token Length for Vision Transformers [17.21663067385715]
視覚変換器は各画像を一定長さのトークン列に分割し、自然言語処理における単語と同じ方法でトークンを処理する。
推論中にトークン長を適応的に割り当てる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T02:48:51Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。