論文の概要: Hierarchical Vision Transformer Enhanced by Graph Convolutional Network for Image Classification
- arxiv url: http://arxiv.org/abs/2604.16823v1
- Date: Sat, 18 Apr 2026 04:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.190121
- Title: Hierarchical Vision Transformer Enhanced by Graph Convolutional Network for Image Classification
- Title(参考訳): 画像分類のためのグラフ畳み込みネットワークによる階層型視覚変換器
- Authors: Haibin Jiao,
- Abstract要約: 画像分類のためのグラフ畳み込みネットワーク(GCN-HViT)により強化された階層型視覚変換器を提案する。
GCN-HViTは、各レベルのグローバルスケールでのパッチワイド情報インタラクションをモデル化し、複数のレベルにわたる小さなパッチと大きなパッチ間の階層的関係をモデル化する。
3つの実世界のデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) has brought new breakthroughs to the field of image classification by introducing the self-attention mechanism and Graph Convolutional Networks(GCN) have been proposed and successfully applied in data representation and analysis. However, there are key challenges which limit their further development: (1) The patch size selected by ViT is crucial for accurate predictions, which raises a natural question: How to select the size of patches properly or how to comprehensively combine small patches and larger patches; (2) While the spatial structure information is important in vision tasks, the 1D position embeddings fails to capture the spatial structure information of patches more accurately; (3) The GCN can capture the local connectivity relationships between image nodes, but it lacks the ability to capture global graph structural information. On the contrary, the self-attention mechanism of ViT can draw the global relation on image patches, but it is unable to model the local structure of image. To overcome such limitations, we propose the Hierarchical Vision Transformer Enhanced by Graph Convolutional Network (GCN-HViT) for image classification. Specifically, the Hierarchical ViT we designed can model patch-wise information interactions on a global scale within each level and model hierarchical relationships between small patches and large patches across multiple levels. In addition, the proposed GCN method functions as a local feature extractor to obtain the local representation of each image patch which serves as a 2D position embedding of each patch in the 2D space. Meanwhile, it models patch-wise information interactions on a local scale within each level. Extensive experiments on 3 real-world datasets demonstrate that GCN-HViT achieves state-of-the-art performance.
- Abstract(参考訳): Vision Transformer (ViT) は、自己認識機構を導入し、画像分類の分野で新たなブレークスルーをもたらし、グラフ畳み込みネットワーク (GCN) が提案され、データ表現と解析に成功している。
1) パッチのサイズを適切に選択するか,あるいは小さなパッチと大きなパッチを包括的に組み合わせるか,(2) 空間構造情報は視覚タスクにおいて重要であるが, 1D 位置埋め込みはパッチの空間構造情報をより正確に捉えるのに失敗する; 3) GCN は画像ノード間の局所的な接続関係をキャプチャするが,グローバルグラフ構造情報をキャプチャする能力は欠如している。
逆に、ViTの自己注意機構は、画像パッチに大域的な関係を引き出すことができるが、画像の局所構造をモデル化することはできない。
このような制限を克服するために、画像分類のためのグラフ畳み込みネットワーク(GCN-HViT)により強化された階層型視覚変換器を提案する。
具体的には、我々が設計した階層型ViTは、各レベルのグローバルスケールでのパッチワイド情報インタラクションをモデル化し、複数のレベルにわたる小さなパッチと大きなパッチ間の階層的関係をモデル化する。
さらに,提案したGCN法は局所特徴抽出器として機能し,各パッチの2次元位置埋め込みとして機能する各イメージパッチの局所表現を得る。
一方、各レベル内のローカルスケールでパッチワイドな情報インタラクションをモデル化する。
3つの実世界のデータセットに対する大規模な実験は、GCN-HViTが最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Hierarchical Graph Feature Enhancement with Adaptive Frequency Modulation for Visual Recognition [6.580655899524989]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクにおいて強力な性能を示している。
構造認識と特徴表現を両立させるため,CNNにグラフベース推論を統合する新しいフレームワークを提案する。
提案したHGFEモジュールは軽量でエンドツーエンドのトレーニングが可能で、標準のCNNバックボーンネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-15T14:19:50Z) - Hierarchical Graph Attention Network for No-Reference Omnidirectional Image Quality Assessment [21.897948374713163]
現在のOIQA(Omnidirectional Image Quality Assessment)法は,局所的な非一様歪みの評価に苦慮している。
本稿では,ビューポート間の構造関係を明示的にモデル化するグラフニューラルネットワークを用いたOIQAフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-13T14:25:24Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - DSNet: A Dual-Stream Framework for Weakly-Supervised Gigapixel Pathology
Image Analysis [78.78181964748144]
スライド画像全体(WSI)を分類するための弱教師付きフレームワークを提案する。
WSIは通常、パッチレベルのラベルを持つパッチワイド分類によって処理される。
イメージレベルのラベルのみの場合、パッチの外観とイメージレベルのラベルの矛盾のため、パッチの分類はサブ最適となる。
論文 参考訳(メタデータ) (2021-09-13T09:10:43Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。