論文の概要: Uni4Eye: Unified 2D and 3D Self-supervised Pre-training via Masked Image
Modeling Transformer for Ophthalmic Image Classification
- arxiv url: http://arxiv.org/abs/2203.04614v1
- Date: Wed, 9 Mar 2022 10:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 16:12:10.631170
- Title: Uni4Eye: Unified 2D and 3D Self-supervised Pre-training via Masked Image
Modeling Transformer for Ophthalmic Image Classification
- Title(参考訳): Uni4Eye:眼科画像分類のためのマスク付き画像モデリング変換器による2次元および3次元自己教師型事前トレーニング
- Authors: Zhiyuan Cai and Huaqing He and Li Lin and Xiaoying Tang
- Abstract要約: 眼科画像に埋め込まれた領域固有の特徴を捉えるために,Uni4Eyeという,汎用的な自己教師型トランスフォーマーフレームワークを提案する。
Uni4Eyeはグローバルな機能抽出器として機能し、ビジョントランスフォーマーアーキテクチャを備えたMasked Image Modelingタスクに基づいてベースを構築することができる。
We use a Unified Patch Embedding module to replaced the origin patch embedded module in ViT for jointly processing both 2D and 3D input images。
- 参考スコア(独自算出の注目度): 1.2250035750661867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large-scale labeled dataset is a key factor for the success of supervised
deep learning in computer vision. However, a limited number of annotated data
is very common, especially in ophthalmic image analysis, since manual
annotation is time-consuming and labor-intensive. Self-supervised learning
(SSL) methods bring huge opportunities for better utilizing unlabeled data, as
they do not need massive annotations. With an attempt to use as many as
possible unlabeled ophthalmic images, it is necessary to break the dimension
barrier, simultaneously making use of both 2D and 3D images. In this paper, we
propose a universal self-supervised Transformer framework, named Uni4Eye, to
discover the inherent image property and capture domain-specific feature
embedding in ophthalmic images. Uni4Eye can serve as a global feature
extractor, which builds its basis on a Masked Image Modeling task with a Vision
Transformer (ViT) architecture. We employ a Unified Patch Embedding module to
replace the origin patch embedding module in ViT for jointly processing both 2D
and 3D input images. Besides, we design a dual-branch multitask decoder module
to simultaneously perform two reconstruction tasks on the input image and its
gradient map, delivering discriminative representations for better convergence.
We evaluate the performance of our pre-trained Uni4Eye encoder by fine-tuning
it on six downstream ophthalmic image classification tasks. The superiority of
Uni4Eye is successfully established through comparisons to other
state-of-the-art SSL pre-training methods.
- Abstract(参考訳): 大規模ラベル付きデータセットは、コンピュータビジョンにおける教師付きディープラーニングの成功の重要な要因である。
しかし,手動アノテーションは時間と労力を要するため,特に眼科画像解析では,注釈データの数が限られている。
自己教師付き学習(SSL)メソッドは、大量のアノテーションを必要としないため、ラベルのないデータを活用する大きな機会をもたらす。
2d画像と3d画像の両方を同時に利用しながら、できるだけ多くのラベルのない眼科画像を使用するためには、次元障壁を破る必要がある。
本稿では,Uni4Eyeという名前の汎用自己教師型トランスフォーマーフレームワークを提案する。
Uni4Eyeはグローバルな機能抽出器として機能し、視覚変換器(ViT)アーキテクチャでMasked Image Modelingタスクに基づいてベースを構築する。
2dと3dの両方の入力画像を共同処理するために、vitのオリジンパッチ埋め込みモジュールを置き換えるために、統一パッチ埋め込みモジュールを使用する。
さらに,マルチタスクデコーダモジュールの設計を行い,入力画像とその勾配マップ上で2つの再構成タスクを同時に実行し,コンバージェンス改善のための判別表現を提供する。
我々は,6つの下流眼科画像分類タスクにおいて,事前訓練したUni4Eyeエンコーダの性能を評価する。
Uni4Eyeの優位性は他の最先端のSSL事前トレーニング手法と比較することで確立されている。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers [48.74331852418905]
直接画像からグラフへの変換は、1つのモデルで物体の検出と関係予測を解くことを伴う課題である。
このタスクの複雑さのため、多くのドメインで大規模なトレーニングデータセットはまれであり、ディープラーニングメソッドのトレーニングを困難にしている。
画像-グラフ変換器のクロスドメインおよびクロス次元学習を可能にする一連の手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Unified 2D and 3D Pre-training for Medical Image classification and
Segmentation [40.01443481859121]
学生-教師パラダイムに基づくユニバーサル・セルフ・スーパーバイザ・トランスフォーマ(USST)フレームワークを提案する。
USSTは、多次元の膨大なラベルのない医療データを活用して、豊かな表現を学ぶことを目的としている。
6つの2D/3D医療画像分類とセグメンテーションタスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2021-12-17T07:27:23Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。