論文の概要: Surface Analysis with Vision Transformers
- arxiv url: http://arxiv.org/abs/2205.15836v1
- Date: Tue, 31 May 2022 14:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 18:45:48.340772
- Title: Surface Analysis with Vision Transformers
- Title(参考訳): 視覚トランスフォーマによる表面分析
- Authors: Simon Dahan, Logan Z. J. Williams, Abdulah Fawaz, Daniel Rueckert,
Emma C. Robinson
- Abstract要約: ビジョントランスフォーマー(ViT)の最近の最先端性能は、自己注意機能を実装した汎用アーキテクチャが、CNNの局所的な特徴学習操作を置き換えることを実証している。
コンピュータビジョンにおけるアテンション・モデリングの成功により、表面学習のタスクをシーケンス・ツー・シーケンス問題として再構成し、VTを表面へ拡張し、表面メッシュのパッチ機構を提案する。
- 参考スコア(独自算出の注目度): 7.4330073456005685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extension of convolutional neural networks (CNNs) to non-Euclidean
geometries has led to multiple frameworks for studying manifolds. Many of those
methods have shown design limitations resulting in poor modelling of long-range
associations, as the generalisation of convolutions to irregular surfaces is
non-trivial. Recent state-of-the-art performance of Vision Transformers (ViTs)
demonstrates that a general-purpose architecture, which implements
self-attention, could replace the local feature learning operations of CNNs.
Motivated by the success of attention-modelling in computer vision, we extend
ViTs to surfaces by reformulating the task of surface learning as a
sequence-to-sequence problem and propose a patching mechanism for surface
meshes. We validate the performance of the proposed Surface Vision Transformer
(SiT) on two brain age prediction tasks in the developing Human Connectome
Project (dHCP) dataset and investigate the impact of pre-training on model
performance. Experiments show that the SiT outperforms many surface CNNs, while
indicating some evidence of general transformation invariance. Code available
at https://github.com/metrics-lab/surface-vision-transformers
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)の非ユークリッド幾何学への拡張は、多様体を研究するための複数のフレームワークにつながった。
これらの方法の多くは、不規則曲面への畳み込みの一般化は非自明であるため、長距離関連のモデル化が不十分な設計上の限界を示している。
視覚トランスフォーマー(vits)の最近の最先端性能は、セルフアテンションを実装した汎用アーキテクチャが、cnnのローカル機能学習操作を置き換えることができることを示している。
コンピュータビジョンにおける注意モデリングの成功に動機づけられ,表面学習のタスクをシーケンス・トゥ・シーケンス問題として再構成し,表面メッシュへのパッチ適用機構を提案する。
本研究は,Human Connectome Project (dHCP) データセットにおける2つの脳年齢予測タスクにおけるSurface Vision Transformer (SiT) の性能を検証し,事前学習がモデル性能に与える影響について検討する。
実験により、SiTは多くの表面CNNよりも優れており、一般的な変換不変性の証拠を示している。
https://github.com/metrics-lab/ surface-vision-transformersで利用可能なコード
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文 参考訳(メタデータ) (2024-09-13T12:21:25Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - The Multiscale Surface Vision Transformer [10.833580445244094]
表面深層学習のためのバックボーンアーキテクチャとして,Multiscale Surface Vision Transformer (MS-SiT)を導入した。
以上の結果から,MS-SiTは新生児の表現型予測タスクにおいて,既存の表面深層学習法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-21T15:00:17Z) - Surface Vision Transformers: Flexible Attention-Based Modelling of
Biomedical Surfaces [9.425082767553935]
コンピュータビジョンタスクにおけるビジョントランスフォーマー(ViT)の最近の最先端パフォーマンスは、ViTが畳み込みニューラルネットワークの局所的な特徴学習操作を置き換えることを実証している。
表面学習の課題をシーケンシャル・ツー・シーケンス・ラーニングの課題として再検討することで,ViTを表面へ拡張する。
本手法は,様々な生体表面ドメインとタスクに対して検証する。
論文 参考訳(メタデータ) (2022-04-07T12:45:54Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z) - A Comprehensive Study of Vision Transformers on Dense Prediction Tasks [10.013443811899466]
畳み込みニューラルネットワーク(CNN)がビジョンタスクの標準選択である。
近年の研究では、オブジェクト検出やセマンティックセグメンテーションといった課題において、視覚変換器(VT)が同等の性能を発揮することが示されている。
このことは、それらの一般化可能性、堅牢性、信頼性、複雑なタスクの特徴を抽出するときにテクスチャバイアスについていくつかの疑問を投げかける。
論文 参考訳(メタデータ) (2022-01-21T13:18:16Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。