論文の概要: Surface Masked AutoEncoder: Self-Supervision for Cortical Imaging Data
- arxiv url: http://arxiv.org/abs/2308.05474v1
- Date: Thu, 10 Aug 2023 10:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:00:30.345390
- Title: Surface Masked AutoEncoder: Self-Supervision for Cortical Imaging Data
- Title(参考訳): surface masked autoencoder: 皮質イメージングデータの自己スーパービジョン
- Authors: Simon Dahan, Mariana da Silva, Daniel Rueckert, Emma C Robinson
- Abstract要約: 自己監督は視覚トランスフォーマーアーキテクチャにおける帰納バイアスの欠如に対処する方法として広く研究されてきた。
本稿では,視覚変換器を表面メッシュに変換する最近の進歩を基盤として,Masked AutoEncoder(MAE)による皮質表面学習の可能性について検討する。
- 参考スコア(独自算出の注目度): 8.196493680978977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervision has been widely explored as a means of addressing the lack
of inductive biases in vision transformer architectures, which limits
generalisation when networks are trained on small datasets. This is crucial in
the context of cortical imaging, where phenotypes are complex and
heterogeneous, but the available datasets are limited in size. This paper
builds upon recent advancements in translating vision transformers to surface
meshes and investigates the potential of Masked AutoEncoder (MAE)
self-supervision for cortical surface learning. By reconstructing surface data
from a masked version of the input, the proposed method effectively models
cortical structure to learn strong representations that translate to improved
performance in downstream tasks. We evaluate our approach on cortical phenotype
regression using the developing Human Connectome Project (dHCP) and demonstrate
that pre-training leads to a 26\% improvement in performance, with an 80\%
faster convergence, compared to models trained from scratch. Furthermore, we
establish that pre-training vision transformer models on large datasets, such
as the UK Biobank (UKB), enables the acquisition of robust representations for
finetuning in low-data scenarios. Our code and pre-trained models are publicly
available at \url{https://github.com/metrics-lab/surface-vision-transformers}.
- Abstract(参考訳): 自己スーパービジョンは、ビジョントランスフォーマーアーキテクチャにおける帰納的バイアスの欠如に対処する手段として広く研究されてきた。
これは、表現型が複雑で異種である皮質イメージングの文脈において重要であるが、利用可能なデータセットのサイズは限られている。
本稿では,視覚変換器を表面メッシュに変換する最近の進歩と,Masked AutoEncoder(MAE)による皮質表面学習の可能性について検討する。
入力の表面データをマスクしたバージョンから再構成することにより,提案手法は効率的に皮質構造をモデル化し,下流タスクの性能向上に寄与する強い表現を学習する。
開発したHuman Connectome Project (dHCP) を用いて, 皮質表現型回帰に対するアプローチを評価し, 事前学習がスクラッチから訓練したモデルと比較して, 80%の収束率で, 性能が26倍に向上することを示した。
さらに,uk biobank (ukb) のような大規模データセット上での事前学習型視覚トランスフォーマーモデルにより,低データシナリオにおける微調整のためのロバスト表現の獲得が可能となる。
私たちのコードと事前トレーニングされたモデルは、 \url{https://github.com/metrics-lab/surface-vision-transformers}で公開されている。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - DaFoEs: Mixing Datasets towards the generalization of vision-state
deep-learning Force Estimation in Minimally Invasive Robotic Surgery [6.55111164866752]
深部神経モデルのトレーニングを行うために,様々なソフト環境を持つ新しい視覚触覚データセット(DaFoEs)を提案する。
また,単一入力や入力シーケンスを用いて腹腔鏡ツールが行う力を予測するための可変エンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-17T14:39:55Z) - MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for
Facial Expression Recognition [11.820043444385432]
Mix Contrastive Fine-tuning (MIMIC) を用いた Mask Image pre-training という新しいFERトレーニングパラダイムを導入する。
初期段階では、一般画像のマスク画像再構成により、ViTを事前訓練する。
微調整段階において、より広範囲の正のサンプルを用いてモデルを強化する混合教師付きコントラスト学習プロセスを導入する。
論文 参考訳(メタデータ) (2024-01-14T10:30:32Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model
Perspective [67.25782152459851]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised
Pretraining [36.44039681893334]
ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
現在の最先端ハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するのみである。
本稿では、自己教師付き事前学習手順を取り入れた新しい分解スペクトル空間変換器を提案する。
論文 参考訳(メタデータ) (2023-09-18T02:05:52Z) - Enhancing Visual Perception in Novel Environments via Incremental Data
Augmentation Based on Style Transfer [2.516855334706386]
未知の未知"は、現実のシナリオにおける自律的なエージェントデプロイメントに挑戦する。
提案手法は,変分プロトタイピング(VPE)を利用して,新規入力を積極的に識別し,処理することで視覚知覚を向上させる。
本研究は,ドメイン固有の拡張戦略に生成モデルを組み込むことの潜在的な利点を示唆する。
論文 参考訳(メタデータ) (2023-09-16T03:06:31Z) - Uncovering the Hidden Cost of Model Compression [49.937417635812025]
視覚プロンプティング (VP) はコンピュータビジョンにおいて重要な伝達学習手法として登場した。
モデル間隔は視覚的プロンプトベース転送の性能に悪影響を及ぼす。
以上の結果から,疎度が下流視覚刺激モデルの校正に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - The Multiscale Surface Vision Transformer [10.174444070118994]
自己注意は、基礎となるデータの高精細なサンプリングを可能にするために、局所的なメッシュウインドウに適用される。
隣接パッチは順次マージされ、MS-SiTは任意の予測タスクに適した階層表現を学習できる。
以上の結果から,MS-SiTは新生児の表現型予測タスクにおいて,既存の表面深層学習法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-21T15:00:17Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。