論文の概要: Improved Image Classification with Token Fusion
- arxiv url: http://arxiv.org/abs/2208.09183v1
- Date: Fri, 19 Aug 2022 07:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 16:35:12.940885
- Title: Improved Image Classification with Token Fusion
- Title(参考訳): Token Fusionによる画像分類の改善
- Authors: Keong Hun Choi, Jin Woo Kim, Yao Wang, Jong Eun Ha
- Abstract要約: 画像分類性能を向上させるために,CNNとトランスフォーマー構造を融合した手法を提案する。
ImageNet 1kを用いた実験では,最も優れた分類性能を示す。
- 参考スコア(独自算出の注目度): 9.413225906164838
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a method using the fusion of CNN and transformer
structure to improve image classification performance. In the case of CNN,
information about a local area on an image can be extracted well, but there is
a limit to the extraction of global information. On the other hand, the
transformer has an advantage in relatively global extraction, but has a
disadvantage in that it requires a lot of memory for local feature value
extraction. In the case of an image, it is converted into a feature map through
CNN, and each feature map's pixel is considered a token. At the same time, the
image is divided into patch areas and then fused with the transformer method
that views them as tokens. For the fusion of tokens with two different
characteristics, we propose three methods: (1) late token fusion with parallel
structure, (2) early token fusion, (3) token fusion in a layer by layer. In an
experiment using ImageNet 1k, the proposed method shows the best classification
performance.
- Abstract(参考訳): 本稿では,CNNと変圧器構造を融合して画像分類性能を向上させる手法を提案する。
CNNの場合、画像上の局所領域に関する情報を適切に抽出することができるが、グローバル情報の抽出には限界がある。
一方、変換器は比較的グローバルな抽出に有利であるが、局所的な特徴値抽出に大量のメモリを必要とすることには欠点がある。
画像の場合、cnnを介してフィーチャーマップに変換され、各フィーチャーマップのピクセルはトークンとみなされる。
同時に、画像はパッチ領域に分割され、それらをトークンとして見るトランスフォーマーメソッドと融合する。
2つの異なる特徴を持つトークンの融合について,(1)並列構造を持つ後期トークン融合,(2)初期トークン融合,(3)層別トークン融合の3つの方法を提案する。
imagenet 1kを用いた実験では,提案手法が最適な分類性能を示す。
関連論文リスト
- TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - Fusion Transformer with Object Mask Guidance for Image Forgery Analysis [9.468075384561947]
OMG-Fuserは、様々な法医学的信号から情報を取り出すために設計された融合トランスフォーマーベースのネットワークである。
本手法は任意の数の法定信号で動作可能であり,解析に対象情報を利用する。
我々のモデルは、伝統的で斬新な偽造攻撃に対して堅牢であり、スクラッチからトレーニングを受けることなく、新しい信号で拡張することができる。
論文 参考訳(メタデータ) (2024-03-18T20:20:13Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Semantic Image Fusion [2.4366811507669124]
本稿では,事前学習したCNNネットワークアーキテクチャを用いた視覚コンテンツの意味結合システムを提案する。
単純な "choose maximum" と "local majority" のフィルタベースの融合ルールは、特徴マップの融合に使用される。
開発手法は,最先端技術に同等の低レベル核融合性能を与えることができる。
論文 参考訳(メタデータ) (2021-10-13T13:15:16Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - NestFuse: An Infrared and Visible Image Fusion Architecture based on
Nest Connection and Spatial/Channel Attention Models [12.16870022547833]
赤外線・可視画像融合のための新しい手法を提案する。
ネスト接続型ネットワークと空間/チャネルアテンションモデルを開発した。
実験は、公開データセット上で実施される。
論文 参考訳(メタデータ) (2020-07-01T08:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。