論文の概要: Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition
- arxiv url: http://arxiv.org/abs/2501.00243v1
- Date: Tue, 31 Dec 2024 03:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:33.566023
- Title: Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition
- Title(参考訳): 超微細粒画像認識におけるトークン削減のためのクロスレイヤキャッシュアグリゲーション
- Authors: Edwin Arkel Rios, Jansen Christopher Yuanda, Vincent Leon Ghanz, Cheng-Wei Yu, Bo-Cheng Lai, Min-Chun Hu,
- Abstract要約: 超微細粒画像認識(UFGIR)は、マクロカテゴリ内の画像の分類を伴う課題である。
そこで我々は,新しいクロス層集約分類ヘッドとクロス層キャッシュ機構を提案する。
- 参考スコア(独自算出の注目度): 4.466973191180124
- License:
- Abstract: Ultra-fine-grained image recognition (UFGIR) is a challenging task that involves classifying images within a macro-category. While traditional FGIR deals with classifying different species, UFGIR goes beyond by classifying sub-categories within a species such as cultivars of a plant. In recent times the usage of Vision Transformer-based backbones has allowed methods to obtain outstanding recognition performances in this task but this comes at a significant cost in terms of computation specially since this task significantly benefits from incorporating higher resolution images. Therefore, techniques such as token reduction have emerged to reduce the computational cost. However, dropping tokens leads to loss of essential information for fine-grained categories, specially as the token keep rate is reduced. Therefore, to counteract the loss of information brought by the usage of token reduction we propose a novel Cross-Layer Aggregation Classification Head and a Cross-Layer Cache mechanism to recover and access information from previous layers in later locations. Extensive experiments covering more than 2000 runs across diverse settings including 5 datasets, 9 backbones, 7 token reduction methods, 5 keep rates, and 2 image sizes demonstrate the effectiveness of the proposed plug-and-play modules and allow us to push the boundaries of accuracy vs cost for UFGIR by reducing the kept tokens to extremely low ratios of up to 10\% while maintaining a competitive accuracy to state-of-the-art models. Code is available at: \url{https://github.com/arkel23/CLCA}
- Abstract(参考訳): 超微細粒画像認識(UFGIR)は、マクロカテゴリ内の画像の分類を伴う課題である。
伝統的なFGIRは異なる種を分類するが、UFGIRは植物の品種などの種に分類される。
近年、Vision Transformerベースのバックボーンを使用することで、このタスクで優れた認識性能が得られるようになったが、高解像度画像の導入により、特に計算コストが大幅に向上した。
そのため、トークン還元などの手法が出現し、計算コストが削減された。
しかし、トークンのドロップは、特にトークンの保持率が減少するにつれて、きめ細かなカテゴリにとって重要な情報を失う。
そこで,トークン削減による情報損失に対応するために,新しいクロス層集約分類ヘッドとクロス層キャッシュ機構を提案する。
5つのデータセット,9つのバックボーン,7つのトークン削減メソッド,5つの保持率,および2つの画像サイズを含む2000以上のさまざまな設定をカバーする大規模な実験は,提案したプラグアンドプレイモジュールの有効性を示し,保持されたトークンを10倍の極めて低い比率に削減し,最先端モデルとの競争精度を維持しながら,UFGIRの精度とコストのバウンダリを推し進めることを可能にした。
コードは: \url{https://github.com/arkel23/CLCA} で入手できる。
関連論文リスト
- PR-MIM: Delving Deeper into Partial Reconstruction in Masked Image Modeling [82.36394157396408]
マスク付き画像モデリングは、学習表現において大きな成功を収めてきたが、膨大な計算コストによって制限されている。
コスト削減戦略の1つは、デコーダがマスクされたトークンのサブセットだけを再構築し、他のトークンを投げることである。
本稿では, 投棄されたトークンを極めて軽量に再構成するための, プログレッシブ・リコンストラクション・ストラテジとファテスト・サンプリング・ストラテジーを提案する。
論文 参考訳(メタデータ) (2024-11-24T07:48:20Z) - Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Picking Up Quantization Steps for Compressed Image Classification [41.065275887759945]
圧縮された画像に対するディープニューラルネットワークの感度を低下させるために、圧縮されたファイルに格納された使い捨てのコーディングパラメータを無視して取り出すことができると主張している。
具体的には、画像の分類を容易にするために、代表的なパラメータの1つ、量子化ステップを使用する。
提案手法は, CIFAR-10, CIFAR-100, ImageNetの分類ネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-04-21T02:56:13Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Reduce Information Loss in Transformers for Pluralistic Image Inpainting [112.50657646357494]
入力情報を可能な限り保持するための新しいトランスフォーマーベースのフレームワーク"PUT"を提案する。
PUTは、特に大きなマスキング領域と複雑な大規模データセットにおいて、画像の忠実性に関する最先端の手法を大幅に上回る。
論文 参考訳(メタデータ) (2022-05-10T17:59:58Z) - EEC: Learning to Encode and Regenerate Images for Continual Learning [9.89901717499058]
Neural Style Transferで自動エンコーダをトレーニングし、画像をエンコードおよび保存します。
エンコードされたエピソードの再構成画像は 破滅的な忘れ物を避けるために 再生される。
本手法は,ベンチマークデータセットにおける最先端手法よりも分類精度を13~17%向上させる。
論文 参考訳(メタデータ) (2021-01-13T06:43:10Z) - Storing Encoded Episodes as Concepts for Continual Learning [22.387008072671005]
継続的な学習アプローチで直面する2つの大きな課題は、データの保存における破滅的な忘れとメモリ制限である。
本稿では,ニューラルスタイルトランスファーを用いたオートエンコーダを訓練し,画像のエンコードと保存を行う,認知にインスパイアされたアプローチを提案する。
ベンチマークデータセットの最先端手法に比べて,分類精度は13~17%向上し,ストレージスペースは78%削減した。
論文 参考訳(メタデータ) (2020-06-26T04:15:56Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。