論文の概要: GvT: A Graph-based Vision Transformer with Talking-Heads Utilizing Sparsity, Trained from Scratch on Small Datasets
- arxiv url: http://arxiv.org/abs/2404.04924v1
- Date: Sun, 7 Apr 2024 11:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:51:34.460129
- Title: GvT: A Graph-based Vision Transformer with Talking-Heads Utilizing Sparsity, Trained from Scratch on Small Datasets
- Title(参考訳): GvT:スクラッチから学習したスラッチを利用したスポーキングヘッドを備えたグラフベースの視覚変換器
- Authors: Dongjing Shan, guiqiang chen,
- Abstract要約: グラフ畳み込みプロジェクションとグラフプーリングを利用するグラフベースビジョントランス (GvT) を提案する。
GvTは、大規模なデータセットを事前トレーニングすることなく、深層畳み込みネットワークに匹敵する、あるいは優れた結果をもたらす。
- 参考スコア(独自算出の注目度): 1.1586742546971471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have achieved impressive results in large-scale image classification. However, when training from scratch on small datasets, there is still a significant performance gap between ViTs and Convolutional Neural Networks (CNNs), which is attributed to the lack of inductive bias. To address this issue, we propose a Graph-based Vision Transformer (GvT) that utilizes graph convolutional projection and graph-pooling. In each block, queries and keys are calculated through graph convolutional projection based on the spatial adjacency matrix, while dot-product attention is used in another graph convolution to generate values. When using more attention heads, the queries and keys become lower-dimensional, making their dot product an uninformative matching function. To overcome this low-rank bottleneck in attention heads, we employ talking-heads technology based on bilinear pooled features and sparse selection of attention tensors. This allows interaction among filtered attention scores and enables each attention mechanism to depend on all queries and keys. Additionally, we apply graph-pooling between two intermediate blocks to reduce the number of tokens and aggregate semantic information more effectively. Our experimental results show that GvT produces comparable or superior outcomes to deep convolutional networks and surpasses vision transformers without pre-training on large datasets. The code for our proposed model is publicly available on the website.
- Abstract(参考訳): 視覚変換器 (ViT) は大規模画像分類において顕著な成果を上げている。
しかしながら、小さなデータセットをスクラッチからトレーニングする場合、インダクティブバイアスの欠如に起因するViTと畳み込みニューラルネットワーク(CNN)の間には、依然として大きなパフォーマンスギャップがある。
この問題に対処するために,グラフ畳み込み投影とグラフプーリングを利用したグラフベースの視覚変換器(GvT)を提案する。
各ブロックにおいて、クエリとキーは空間隣接行列に基づいてグラフ畳み込み投影によって計算され、ドット積の注意は別のグラフ畳み込みで値を生成する。
より注意を向ける場合、クエリとキーは低次元になり、ドット積は非形式的マッチング関数となる。
この低ランクなアテンションヘッドのボトルネックを克服するために、バイリニアプール機能と注目テンソルのスパース選択に基づくトーキングヘッド技術を用いる。
これにより、フィルタリングされたアテンションスコア間のインタラクションが可能になり、各アテンションメカニズムはすべてのクエリとキーに依存することができる。
さらに、2つの中間ブロック間のグラフプーリングを適用し、トークンの数を減らし、意味情報をより効率的に集約する。
我々の実験結果によると、GvTは深層畳み込みネットワークに匹敵するあるいは優れた結果をもたらし、大規模なデータセットを事前学習することなくビジョントランスフォーマーを超越している。
提案したモデルのコードはWebサイトで公開されている。
関連論文リスト
- Graph as Point Set [31.448841287258116]
本稿では,相互接続ノードを独立点の集合に変換するグラフ・ツー・セット変換法を提案する。
これにより、セットエンコーダを使用してグラフから学習することが可能になり、グラフニューラルネットワークの設計空間が大幅に拡張される。
提案手法の有効性を示すために,グラフから変換された点集合を入力として受け入れる変換器アーキテクチャであるPoint Set Transformer (PST)を導入する。
論文 参考訳(メタデータ) (2024-05-05T02:29:41Z) - Cell Graph Transformer for Nuclei Classification [78.47566396839628]
我々は,ノードとエッジを入力トークンとして扱うセルグラフ変換器(CGT)を開発した。
不愉快な特徴は、騒々しい自己注意スコアと劣等な収束につながる可能性がある。
グラフ畳み込みネットワーク(GCN)を利用して特徴抽出器を学習する新しいトポロジ対応事前学習法を提案する。
論文 参考訳(メタデータ) (2024-02-20T12:01:30Z) - Deep Prompt Tuning for Graph Transformers [55.2480439325792]
ファインチューニングはリソース集約型であり、大きなモデルのコピーを複数保存する必要がある。
ファインチューニングの代替として,ディープグラフプロンプトチューニングと呼ばれる新しい手法を提案する。
事前学習したパラメータを凍結し、追加したトークンのみを更新することにより、フリーパラメータの数を減らし、複数のモデルコピーを不要にする。
論文 参考訳(メタデータ) (2023-09-18T20:12:17Z) - Multimodal Graph Transformer for Multimodal Question Answering [9.292566397511763]
本稿では,複数のモーダルをまたがる推論を必要とする質問応答タスクのための新しいマルチモーダルグラフ変換器を提案する。
マルチモーダルグラフ情報を組み込むための,グラフを包含したプラグアンドプレイ準アテンション機構を提案する。
GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-30T21:22:35Z) - Graph Mixture of Experts: Learning on Large-Scale Graphs with Explicit
Diversity Modeling [60.0185734837814]
グラフニューラルネットワーク(GNN)は、グラフデータからの学習に広く応用されている。
GNNの一般化能力を強化するため、グラフ強化のような技術を用いて、トレーニンググラフ構造を増強することが慣例となっている。
本研究では,GNNにMixture-of-Experts(MoE)の概念を導入する。
論文 参考訳(メタデータ) (2023-04-06T01:09:36Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Graph Contrastive Learning with Augmentations [109.23158429991298]
グラフデータの教師なし表現を学習するためのグラフコントラスト学習(GraphCL)フレームワークを提案する。
我々のフレームワークは、最先端の手法と比較して、類似またはより良い一般化可能性、転送可能性、堅牢性のグラフ表現を作成できることを示す。
論文 参考訳(メタデータ) (2020-10-22T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。