論文の概要: Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning
- arxiv url: http://arxiv.org/abs/2408.05889v1
- Date: Mon, 12 Aug 2024 01:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:55:41.245733
- Title: Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning
- Title(参考訳): トークンレベルの表現学習による医用画像の3次元トランスフォーマーセグメンテーションモデルの構築
- Authors: Xinrong Hu, Dewen Zeng, Yawen Wu, Xueyang Li, Yiyu Shi,
- Abstract要約: 本研究は、異なる拡張ビューからのトークン埋め込み間の合意を最大化するトークンレベルの表現学習損失を提案する。
また、入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元するシンプルな「回転・再保存」機構を発明する。
筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
- 参考スコア(独自算出の注目度): 9.896550384001348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of medical images, although various works find Swin Transformer has promising effectiveness on pixelwise dense prediction, whether pre-training these models without using extra dataset can further boost the performance for the downstream semantic segmentation remains unexplored.Applications of previous representation learning methods are hindered by the limited number of 3D volumes and high computational cost. In addition, most of pretext tasks designed specifically for Transformer are not applicable to hierarchical structure of Swin Transformer. Thus, this work proposes a token-level representation learning loss that maximizes agreement between token embeddings from different augmented views individually instead of volume-level global features. Moreover, we identify a potential representation collapse exclusively caused by this new loss. To prevent collapse, we invent a simple "rotate-and-restore" mechanism, which rotates and flips one augmented view of input volume, and later restores the order of tokens in the feature maps. We also modify the contrastive loss to address the discrimination between tokens at the same position but from different volumes. We test our pre-training scheme on two public medical segmentation datasets, and the results on the downstream segmentation task show more improvement of our methods than other state-of-the-art pre-trainig methods.
- Abstract(参考訳): 医学画像の分野では、Swin Transformerはピクセル単位の密度予測に有望な効果があるが、これらのモデルに余分なデータセットを使わずに事前学習することで、下流セマンティックセグメンテーションの性能をさらに向上させることができるかどうかが不明であり、従来の表現学習手法の適用は、3Dボリュームの限られた数と高い計算コストによって妨げられている。
加えて、Transformer用に特別に設計されたプレテキストタスクのほとんどは、Swin Transformerの階層構造には適用されない。
そこで本研究では,異なる拡張ビューからのトークン埋め込み間の合意を,ボリュームレベルのグローバルな特徴ではなく個別に最大化するトークンレベルの表現学習損失を提案する。
さらに、この新たな損失によってのみ引き起こされる潜在的な表現崩壊を同定する。
この機構は入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元する。
また、異なるボリュームではなく、同じ位置のトークン間の識別に対処するために、対照的な損失を修正します。
筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
関連論文リスト
- Enhancing Weakly Supervised 3D Medical Image Segmentation through
Probabilistic-aware Learning [52.249748801637196]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Generative-Contrastive Learning for Self-Supervised Latent
Representations of 3D Shapes from Multi-Modal Euclidean Input [44.10761155817833]
本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
論文 参考訳(メタデータ) (2023-01-11T18:14:24Z) - Towards Automated Polyp Segmentation Using Weakly- and Semi-Supervised
Learning and Deformable Transformers [8.01814397869811]
ポリープセグメンテーションは大腸癌のコンピュータ診断への重要なステップである。
ポリプセグメンテーションの手法の多くは、ピクセル単位のアノテートデータセットを必要とする。
本稿では,弱い注釈付き画像のみを用いて,ラベルなし画像の活用によりトレーニング可能な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T20:44:12Z) - Expediting Large-Scale Vision Transformer for Dense Prediction without
Fine-tuning [28.180891300826165]
大規模視覚変換器におけるトークンの総数を削減するために、多くの先進的なアプローチが開発されている。
2つの非パラメトリック演算子、トークン数を減らすトークンクラスタリング層、トークン数を増やすトークン再構成層を提供する。
その結果、オブジェクト検出、セマンティックセグメンテーション、パノスコープセグメンテーション、インスタンスセグメンテーション、深さ推定を含む5つの密集した予測タスクが期待できる。
論文 参考訳(メタデータ) (2022-10-03T15:49:48Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Dynamic Linear Transformer for 3D Biomedical Image Segmentation [2.440109381823186]
トランスフォーマーベースのニューラルネットワークは、多くのバイオメディカルイメージセグメンテーションタスクにおいて、有望なパフォーマンスを上回っている。
3次元トランスを用いた分割法の主な課題は、自己認識機構によって引き起こされる二次的複雑性である。
本稿では,エンコーダ・デコーダ方式の線形複雑化を用いた3次元医用画像分割のためのトランスフォーマアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-01T21:15:01Z) - Class-Aware Generative Adversarial Transformers for Medical Image
Segmentation [39.14169989603906]
医用画像セグメンテーションのための新規な生成逆変換器CA-GANformerを提案する。
まず、ピラミッド構造を利用してマルチスケール表現を構築し、マルチスケールのバリエーションを扱う。
次に、意味構造を持つオブジェクトの識別領域をよりよく学習するために、新しいクラス対応トランスフォーマーモジュールを設計する。
論文 参考訳(メタデータ) (2022-01-26T03:50:02Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。