論文の概要: Hands-on Evaluation of Visual Transformers for Object Recognition and Detection
- arxiv url: http://arxiv.org/abs/2512.09579v1
- Date: Wed, 10 Dec 2025 12:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.513375
- Title: Hands-on Evaluation of Visual Transformers for Object Recognition and Detection
- Title(参考訳): 物体認識・検出のための視覚変換器のハンズオン評価
- Authors: Dimitrios N. Vlachogiannis, Dimitrios A. Koutsomitropoulos,
- Abstract要約: 視覚変換器(ViT)と従来のCNNモデルを比較する。
ハイブリッドで階層的なトランスフォーマー、特にSwinとCvTは、精度と計算資源のバランスが強い。
全体としては、Vision Transformerは競争力があり、多くの場合、従来のCNNよりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNNs) for computer vision sometimes struggle with understanding images in a global context, as they mainly focus on local patterns. On the other hand, Vision Transformers (ViTs), inspired by models originally created for language processing, use self-attention mechanisms, which allow them to understand relationships across the entire image. In this paper, we compare different types of ViTs (pure, hierarchical, and hybrid) against traditional CNN models across various tasks, including object recognition, detection, and medical image classification. We conduct thorough tests on standard datasets like ImageNet for image classification and COCO for object detection. Additionally, we apply these models to medical imaging using the ChestX-ray14 dataset. We find that hybrid and hierarchical transformers, especially Swin and CvT, offer a strong balance between accuracy and computational resources. Furthermore, by experimenting with data augmentation techniques on medical images, we discover significant performance improvements, particularly with the Swin Transformer model. Overall, our results indicate that Vision Transformers are competitive and, in many cases, outperform traditional CNNs, especially in scenarios requiring the understanding of global visual contexts like medical imaging.
- Abstract(参考訳): コンピュータビジョンのための畳み込みニューラルネットワーク(CNN)は、主に局所パターンに焦点を当てているため、グローバルコンテキストにおけるイメージ理解に苦労することがある。
一方、ヴィジュアルトランスフォーマー(ViT)は、元々言語処理のために作成されたモデルにインスパイアされ、自己認識機構を使用して、画像全体の関係を理解することができる。
本稿では,物体認識,検出,医用画像分類など,従来のCNNモデルと異なる種類のViT(純粋,階層,ハイブリッド)を比較した。
画像分類のための ImageNet やオブジェクト検出のための COCO などの標準データセットを徹底的にテストする。
さらに、これらのモデルをChestX-ray14データセットを用いた医療画像に適用する。
ハイブリッドで階層的なトランスフォーマー、特にSwinとCvTは、精度と計算資源のバランスが強い。
さらに,医用画像におけるデータ拡張手法の実験により,特にSwin Transformerモデルにおいて,大幅な性能向上が見られた。
全体としては、ビジョントランスフォーマーは競争力があり、多くの場合、従来のCNNよりも優れており、特に医療画像のようなグローバルな視覚的コンテキストを理解する必要のあるシナリオでは、より優れています。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer [1.456352735394398]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化プロセスを通じてトランスフォーマー入力に適応し、継承されたマルチスケールの帰納バイアスを保存する。
論文 参考訳(メタデータ) (2025-06-15T22:42:57Z) - Sensitive Image Classification by Vision Transformers [1.9598097298813262]
ビジョントランスモデルは自己認識機構を利用して、文脈的局所要素間のグローバルな相互作用をキャプチャする。
本研究では,様々な視覚変換器モデルと従来のトレーニング済みResNetモデルの比較分析を行った。
その結果、ビジョントランスフォーマーネットワークは、事前訓練されたベンチマークモデルを超え、優れた分類と検出能力を示した。
論文 参考訳(メタデータ) (2024-12-21T02:34:24Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - Vision Transformers in Medical Imaging: A Review [0.0]
注目に基づくエンコーダ・デコーダアーキテクチャからなるモデルであるTransformerは、自然言語処理(NLP)の分野で普及している。
本稿では,医療画像におけるトランスフォーマーの適用を包括的かつ最近のレビューとして,コンボリューショナルニューラルネットワーク(CNN)の多様性と比較したトランスフォーマーモデルについて述べる。
論文 参考訳(メタデータ) (2022-11-18T05:52:37Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - An Image is Worth 16x16 Words: Transformers for Image Recognition at
Scale [112.94212299087653]
ビジョントランスフォーマー(ViT)は、最先端の畳み込みネットワークと比較して優れた結果を得ると同時に、トレーニングする計算リソースを著しく少なくする。
論文 参考訳(メタデータ) (2020-10-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。