論文の概要: Surface Analysis with Vision Transformers
- arxiv url: http://arxiv.org/abs/2205.15836v1
- Date: Tue, 31 May 2022 14:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 18:45:48.340772
- Title: Surface Analysis with Vision Transformers
- Title(参考訳): 視覚トランスフォーマによる表面分析
- Authors: Simon Dahan, Logan Z. J. Williams, Abdulah Fawaz, Daniel Rueckert,
Emma C. Robinson
- Abstract要約: ビジョントランスフォーマー(ViT)の最近の最先端性能は、自己注意機能を実装した汎用アーキテクチャが、CNNの局所的な特徴学習操作を置き換えることを実証している。
コンピュータビジョンにおけるアテンション・モデリングの成功により、表面学習のタスクをシーケンス・ツー・シーケンス問題として再構成し、VTを表面へ拡張し、表面メッシュのパッチ機構を提案する。
- 参考スコア(独自算出の注目度): 7.4330073456005685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extension of convolutional neural networks (CNNs) to non-Euclidean
geometries has led to multiple frameworks for studying manifolds. Many of those
methods have shown design limitations resulting in poor modelling of long-range
associations, as the generalisation of convolutions to irregular surfaces is
non-trivial. Recent state-of-the-art performance of Vision Transformers (ViTs)
demonstrates that a general-purpose architecture, which implements
self-attention, could replace the local feature learning operations of CNNs.
Motivated by the success of attention-modelling in computer vision, we extend
ViTs to surfaces by reformulating the task of surface learning as a
sequence-to-sequence problem and propose a patching mechanism for surface
meshes. We validate the performance of the proposed Surface Vision Transformer
(SiT) on two brain age prediction tasks in the developing Human Connectome
Project (dHCP) dataset and investigate the impact of pre-training on model
performance. Experiments show that the SiT outperforms many surface CNNs, while
indicating some evidence of general transformation invariance. Code available
at https://github.com/metrics-lab/surface-vision-transformers
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)の非ユークリッド幾何学への拡張は、多様体を研究するための複数のフレームワークにつながった。
これらの方法の多くは、不規則曲面への畳み込みの一般化は非自明であるため、長距離関連のモデル化が不十分な設計上の限界を示している。
視覚トランスフォーマー(vits)の最近の最先端性能は、セルフアテンションを実装した汎用アーキテクチャが、cnnのローカル機能学習操作を置き換えることができることを示している。
コンピュータビジョンにおける注意モデリングの成功に動機づけられ,表面学習のタスクをシーケンス・トゥ・シーケンス問題として再構成し,表面メッシュへのパッチ適用機構を提案する。
本研究は,Human Connectome Project (dHCP) データセットにおける2つの脳年齢予測タスクにおけるSurface Vision Transformer (SiT) の性能を検証し,事前学習がモデル性能に与える影響について検討する。
実験により、SiTは多くの表面CNNよりも優れており、一般的な変換不変性の証拠を示している。
https://github.com/metrics-lab/ surface-vision-transformersで利用可能なコード
関連論文リスト
- Supervised Fine-tuning in turn Improves Visual Foundation Models [82.74877068927518]
2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。
4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
論文 参考訳(メタデータ) (2024-01-18T18:58:54Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - The Multiscale Surface Vision Transformer [10.174444070118994]
自己注意は、基礎となるデータの高精細なサンプリングを可能にするために、局所的なメッシュウインドウに適用される。
隣接パッチは順次マージされ、MS-SiTは任意の予測タスクに適した階層表現を学習できる。
以上の結果から,MS-SiTは新生児の表現型予測タスクにおいて,既存の表面深層学習法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-21T15:00:17Z) - Surface Vision Transformers: Flexible Attention-Based Modelling of
Biomedical Surfaces [9.425082767553935]
コンピュータビジョンタスクにおけるビジョントランスフォーマー(ViT)の最近の最先端パフォーマンスは、ViTが畳み込みニューラルネットワークの局所的な特徴学習操作を置き換えることを実証している。
表面学習の課題をシーケンシャル・ツー・シーケンス・ラーニングの課題として再検討することで,ViTを表面へ拡張する。
本手法は,様々な生体表面ドメインとタスクに対して検証する。
論文 参考訳(メタデータ) (2022-04-07T12:45:54Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z) - A Comprehensive Study of Vision Transformers on Dense Prediction Tasks [10.013443811899466]
畳み込みニューラルネットワーク(CNN)がビジョンタスクの標準選択である。
近年の研究では、オブジェクト検出やセマンティックセグメンテーションといった課題において、視覚変換器(VT)が同等の性能を発揮することが示されている。
このことは、それらの一般化可能性、堅牢性、信頼性、複雑なタスクの特徴を抽出するときにテクスチャバイアスについていくつかの疑問を投げかける。
論文 参考訳(メタデータ) (2022-01-21T13:18:16Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Rethinking Spatial Dimensions of Vision Transformers [34.13899937264952]
Vision Transformer (ViT) は、言語処理からコンピュータビジョンタスクまで、トランスフォーマーの応用範囲を広げる。
トランスアーキテクチャにおける空間次元変換の役割とその有効性について検討する。
オリジナルViTモデルに基づく新しいPooling-based Vision Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2021-03-30T12:51:28Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。