論文の概要: Uni4Eye: Unified 2D and 3D Self-supervised Pre-training via Masked Image
Modeling Transformer for Ophthalmic Image Classification
- arxiv url: http://arxiv.org/abs/2203.04614v1
- Date: Wed, 9 Mar 2022 10:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 16:12:10.631170
- Title: Uni4Eye: Unified 2D and 3D Self-supervised Pre-training via Masked Image
Modeling Transformer for Ophthalmic Image Classification
- Title(参考訳): Uni4Eye:眼科画像分類のためのマスク付き画像モデリング変換器による2次元および3次元自己教師型事前トレーニング
- Authors: Zhiyuan Cai and Huaqing He and Li Lin and Xiaoying Tang
- Abstract要約: 眼科画像に埋め込まれた領域固有の特徴を捉えるために,Uni4Eyeという,汎用的な自己教師型トランスフォーマーフレームワークを提案する。
Uni4Eyeはグローバルな機能抽出器として機能し、ビジョントランスフォーマーアーキテクチャを備えたMasked Image Modelingタスクに基づいてベースを構築することができる。
We use a Unified Patch Embedding module to replaced the origin patch embedded module in ViT for jointly processing both 2D and 3D input images。
- 参考スコア(独自算出の注目度): 1.2250035750661867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large-scale labeled dataset is a key factor for the success of supervised
deep learning in computer vision. However, a limited number of annotated data
is very common, especially in ophthalmic image analysis, since manual
annotation is time-consuming and labor-intensive. Self-supervised learning
(SSL) methods bring huge opportunities for better utilizing unlabeled data, as
they do not need massive annotations. With an attempt to use as many as
possible unlabeled ophthalmic images, it is necessary to break the dimension
barrier, simultaneously making use of both 2D and 3D images. In this paper, we
propose a universal self-supervised Transformer framework, named Uni4Eye, to
discover the inherent image property and capture domain-specific feature
embedding in ophthalmic images. Uni4Eye can serve as a global feature
extractor, which builds its basis on a Masked Image Modeling task with a Vision
Transformer (ViT) architecture. We employ a Unified Patch Embedding module to
replace the origin patch embedding module in ViT for jointly processing both 2D
and 3D input images. Besides, we design a dual-branch multitask decoder module
to simultaneously perform two reconstruction tasks on the input image and its
gradient map, delivering discriminative representations for better convergence.
We evaluate the performance of our pre-trained Uni4Eye encoder by fine-tuning
it on six downstream ophthalmic image classification tasks. The superiority of
Uni4Eye is successfully established through comparisons to other
state-of-the-art SSL pre-training methods.
- Abstract(参考訳): 大規模ラベル付きデータセットは、コンピュータビジョンにおける教師付きディープラーニングの成功の重要な要因である。
しかし,手動アノテーションは時間と労力を要するため,特に眼科画像解析では,注釈データの数が限られている。
自己教師付き学習(SSL)メソッドは、大量のアノテーションを必要としないため、ラベルのないデータを活用する大きな機会をもたらす。
2d画像と3d画像の両方を同時に利用しながら、できるだけ多くのラベルのない眼科画像を使用するためには、次元障壁を破る必要がある。
本稿では,Uni4Eyeという名前の汎用自己教師型トランスフォーマーフレームワークを提案する。
Uni4Eyeはグローバルな機能抽出器として機能し、視覚変換器(ViT)アーキテクチャでMasked Image Modelingタスクに基づいてベースを構築する。
2dと3dの両方の入力画像を共同処理するために、vitのオリジンパッチ埋め込みモジュールを置き換えるために、統一パッチ埋め込みモジュールを使用する。
さらに,マルチタスクデコーダモジュールの設計を行い,入力画像とその勾配マップ上で2つの再構成タスクを同時に実行し,コンバージェンス改善のための判別表現を提供する。
我々は,6つの下流眼科画像分類タスクにおいて,事前訓練したUni4Eyeエンコーダの性能を評価する。
Uni4Eyeの優位性は他の最先端のSSL事前トレーニング手法と比較することで確立されている。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Unified 2D and 3D Pre-training for Medical Image classification and
Segmentation [40.01443481859121]
学生-教師パラダイムに基づくユニバーサル・セルフ・スーパーバイザ・トランスフォーマ(USST)フレームワークを提案する。
USSTは、多次元の膨大なラベルのない医療データを活用して、豊かな表現を学ぶことを目的としている。
6つの2D/3D医療画像分類とセグメンテーションタスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2021-12-17T07:27:23Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。