論文の概要: SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers
- arxiv url: http://arxiv.org/abs/2411.09420v1
- Date: Thu, 14 Nov 2024 13:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:38.074166
- Title: SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers
- Title(参考訳): SAG-ViT:視覚変換器用グラフアテンションを用いた大規模高忠実パッチ手法
- Authors: Shravan Venkatraman, Jaskaran Singh Walia, Joe Dhanith P R,
- Abstract要約: マルチスケール機能を統合することでこの問題に対処する新しいフレームワークであるSAG-ViT(Scale-Aware Graph Attention Vision Transformer)を紹介した。
EfficientNetをバックボーンとして使用し、マルチスケールの特徴マップを抽出し、セマンティック情報を保存するためにパッチに分割する。
SAG-ViTは、ベンチマークデータセットに基づいて評価され、画像分類性能を向上させる効果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Image classification is a computer vision task where a model analyzes an image to categorize it into a specific label. Vision Transformers (ViT) improve this task by leveraging self-attention to capture complex patterns and long range relationships between image patches. However, a key challenge for ViTs is efficiently incorporating multiscale feature representations, which is inherent in CNNs through their hierarchical structure. In this paper, we introduce the Scale-Aware Graph Attention Vision Transformer (SAG-ViT), a novel framework that addresses this challenge by integrating multi-scale features. Using EfficientNet as a backbone, the model extracts multi-scale feature maps, which are divided into patches to preserve semantic information. These patches are organized into a graph based on spatial and feature similarities, with a Graph Attention Network (GAT) refining the node embeddings. Finally, a Transformer encoder captures long-range dependencies and complex interactions. The SAG-ViT is evaluated on benchmark datasets, demonstrating its effectiveness in enhancing image classification performance.
- Abstract(参考訳): 画像分類とは、モデルが画像を分析して特定のラベルに分類するコンピュータビジョンタスクである。
視覚変換器(ViT)は、自己注意を利用して複雑なパターンと画像パッチ間の長い範囲の関係をキャプチャする。
しかし、ViTsの重要な課題は、その階層構造を通じてCNNに固有のマルチスケール特徴表現を効率的に組み込むことである。
本稿では、マルチスケール機能を統合することでこの問題に対処する新しいフレームワークであるSAG-ViT(Scale-Aware Graph Attention Vision Transformer)を紹介する。
EfficientNetをバックボーンとして使用し、マルチスケールの特徴マップを抽出し、セマンティック情報を保存するためにパッチに分割する。
これらのパッチは、空間的および特徴的類似性に基づいてグラフに整理され、グラフ注意ネットワーク(GAT)がノードの埋め込みを洗練する。
最後に、Transformerエンコーダは、長距離の依存関係と複雑なインタラクションをキャプチャする。
SAG-ViTは、ベンチマークデータセットに基づいて評価され、画像分類性能を向上させる効果を示す。
関連論文リスト
- Two Stream Scene Understanding on Graph Embedding [4.78180589767256]
本稿では,コンピュータビジョンにおけるシーン理解の促進を目的とした,新しい2ストリームネットワークアーキテクチャを提案する。
グラフ特徴ストリームネットワークは、セグメンテーション構造、シーングラフ生成、およびグラフ表現モジュールを含む。
ADE20Kデータセットで行った実験は、画像分類精度を向上させるために提案した2ストリームネットワークの有効性を示した。
論文 参考訳(メタデータ) (2023-11-12T05:57:56Z) - GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition [37.02054260449195]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。
我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。
実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文 参考訳(メタデータ) (2023-08-28T07:50:04Z) - Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。
我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。
我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-08-21T13:54:00Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。