論文の概要: A Unified and Biologically-Plausible Relational Graph Representation of
Vision Transformers
- arxiv url: http://arxiv.org/abs/2206.11073v1
- Date: Fri, 20 May 2022 05:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 08:20:00.050173
- Title: A Unified and Biologically-Plausible Relational Graph Representation of
Vision Transformers
- Title(参考訳): 視覚変換器の統一的かつ生物学的に有理な関係グラフ表現
- Authors: Yuzhong Chen, Yu Du, Zhenxiang Xiao, Lin Zhao, Lu Zhang, David
Weizhong Liu, Dajiang Zhu, Tuo Zhang, Xintao Hu, Tianming Liu, Xi Jiang
- Abstract要約: 視覚変換器(ViT)とその変種は様々な視覚的タスクにおいて顕著な成功を収めた。
本稿では,ViTモデルの統一的,生物学的に証明可能な関係グラフ表現を提案する。
我々の研究は、ViT ANNのより解釈可能で効果的な表現のための、統一的で生物学的に証明可能な新しいパラダイムを提供する。
- 参考スコア(独自算出の注目度): 11.857392812189872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformer (ViT) and its variants have achieved remarkable successes
in various visual tasks. The key characteristic of these ViT models is to adopt
different aggregation strategies of spatial patch information within the
artificial neural networks (ANNs). However, there is still a key lack of
unified representation of different ViT architectures for systematic
understanding and assessment of model representation performance. Moreover, how
those well-performing ViT ANNs are similar to real biological neural networks
(BNNs) is largely unexplored. To answer these fundamental questions, we, for
the first time, propose a unified and biologically-plausible relational graph
representation of ViT models. Specifically, the proposed relational graph
representation consists of two key sub-graphs: aggregation graph and affine
graph. The former one considers ViT tokens as nodes and describes their spatial
interaction, while the latter one regards network channels as nodes and
reflects the information communication between channels. Using this unified
relational graph representation, we found that: a) a sweet spot of the
aggregation graph leads to ViTs with significantly improved predictive
performance; b) the graph measures of clustering coefficient and average path
length are two effective indicators of model prediction performance, especially
when applying on the datasets with small samples; c) our findings are
consistent across various ViT architectures and multiple datasets; d) the
proposed relational graph representation of ViT has high similarity with real
BNNs derived from brain science data. Overall, our work provides a novel
unified and biologically-plausible paradigm for more interpretable and
effective representation of ViT ANNs.
- Abstract(参考訳): 視覚変換器(ViT)とその変種は様々な視覚的タスクにおいて顕著な成功を収めた。
これらのvitモデルの重要な特徴は、ニューラルネットワーク(anns)内の空間パッチ情報の異なる集約戦略を採用することである。
しかし、モデル表現性能の体系的理解と評価のために異なるViTアーキテクチャの統一表現が依然として欠如している。
さらに、これらの優れたViT ANNが、実際の生物学的ニューラルネットワーク(BNN)とどのように似ているかはほとんど解明されていない。
これらの基本的な質問に答えるために、我々は初めて、ViTモデルの統一的で生物学的に証明可能な関係グラフ表現を提案する。
具体的には、提案した関係グラフ表現は、アグリゲーショングラフとアフィングラフの2つの重要な部分グラフからなる。
前者はViTトークンをノードとみなし、その空間的相互作用を記述し、後者はネットワークチャネルをノードとみなし、チャネル間の情報通信を反映している。
この統合リレーショナルグラフ表現を用いることで、以下のことが分かりました。
a) 集約グラフのスイートスポットは,予測性能を著しく改善したViTに導かれる。
b) クラスタリング係数と平均経路長のグラフは、特に小規模サンプルのデータセットに適用する場合において、モデル予測性能の2つの有効な指標である。
c) 我々の発見は様々なViTアーキテクチャと複数のデータセットで一致している。
d)ViTのリレーショナルグラフ表現は脳科学データから得られた実BNNと高い類似性を有する。
全体として、我々の研究は、ViT ANNのより解釈可能で効果的な表現のための、統一的で生物学的に証明可能な新しいパラダイムを提供する。
関連論文リスト
- Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。
また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。
本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文 参考訳(メタデータ) (2024-10-13T02:22:14Z) - BHGNN-RT: Network embedding for directed heterogeneous graphs [8.7024326813104]
本稿では,BHGNN-RTを用いた双方向ヘテロジニアスグラフニューラルネットワークの組込み手法を提案する。
BHGNN-RTの有効性と有効性を検証するために, 各種データセットの広範囲な実験を行った。
BHGNN-RTは、ノード分類と教師なしクラスタリングタスクの両方においてベンチマーク手法よりも優れた、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-24T10:56:09Z) - DURENDAL: Graph deep learning framework for temporal heterogeneous
networks [0.5156484100374057]
時間的異種ネットワーク(THN)は、多くの現実世界の応用を特徴付ける進化的ネットワークである。
THNのためのグラフ深層学習フレームワークであるDURENDALを提案する。
論文 参考訳(メタデータ) (2023-09-30T10:46:01Z) - MTS2Graph: Interpretable Multivariate Time Series Classification with
Temporal Evolving Graphs [1.1756822700775666]
入力代表パターンを抽出・クラスタリングすることで時系列データを解釈する新しいフレームワークを提案する。
UCR/UEAアーカイブの8つのデータセットとHARとPAMデータセットで実験を行います。
論文 参考訳(メタデータ) (2023-06-06T16:24:27Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Towards Deeper Graph Neural Networks [63.46470695525957]
グラフ畳み込みは近傍の集約を行い、最も重要なグラフ操作の1つである。
いくつかの最近の研究で、この性能劣化は過度に滑らかな問題に起因している。
本研究では,大きな受容領域からの情報を適応的に組み込むディープ適応グラフニューラルネットワーク(DAGNN)を提案する。
論文 参考訳(メタデータ) (2020-07-18T01:11:14Z) - Tensor Graph Convolutional Networks for Multi-relational and Robust
Learning [74.05478502080658]
本稿では,テンソルで表されるグラフの集合に関連するデータから,スケーラブルな半教師付き学習(SSL)を実現するためのテンソルグラフ畳み込みネットワーク(TGCN)を提案する。
提案アーキテクチャは、標準的なGCNと比較して大幅に性能が向上し、最先端の敵攻撃に対処し、タンパク質間相互作用ネットワーク上でのSSL性能が著しく向上する。
論文 参考訳(メタデータ) (2020-03-15T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。