論文の概要: vox2vec: A Framework for Self-supervised Contrastive Learning of
Voxel-level Representations in Medical Images
- arxiv url: http://arxiv.org/abs/2307.14725v1
- Date: Thu, 27 Jul 2023 09:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:12:53.400011
- Title: vox2vec: A Framework for Self-supervised Contrastive Learning of
Voxel-level Representations in Medical Images
- Title(参考訳): vox2vec:医療画像におけるVoxelレベルの表現の自己教師型コントラスト学習フレームワーク
- Authors: Mikhail Goncharov, Vera Soboleva, Anvar Kurmukov, Maxim Pisov and
Mikhail Belyaev
- Abstract要約: vox2vecは、ボクセルレベルの表現の自己教師付き学習(SSL)のための対照的な方法である。
我々は、vox2vecを使って、6500以上の公開計算トモグラフィ画像上にフィーチャーピラミッドネットワーク(FPN)を事前トレーニングする。
Vox2vec は既存の医療画像 SSL 技術より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.055997926295092294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces vox2vec - a contrastive method for self-supervised
learning (SSL) of voxel-level representations. vox2vec representations are
modeled by a Feature Pyramid Network (FPN): a voxel representation is a
concatenation of the corresponding feature vectors from different pyramid
levels. The FPN is pre-trained to produce similar representations for the same
voxel in different augmented contexts and distinctive representations for
different voxels. This results in unified multi-scale representations that
capture both global semantics (e.g., body part) and local semantics (e.g.,
different small organs or healthy versus tumor tissue). We use vox2vec to
pre-train a FPN on more than 6500 publicly available computed tomography
images. We evaluate the pre-trained representations by attaching simple heads
on top of them and training the resulting models for 22 segmentation tasks. We
show that vox2vec outperforms existing medical imaging SSL techniques in three
evaluation setups: linear and non-linear probing and end-to-end fine-tuning.
Moreover, a non-linear head trained on top of the frozen vox2vec
representations achieves competitive performance with the FPN trained from
scratch while having 50 times fewer trainable parameters. The code is available
at https://github.com/mishgon/vox2vec .
- Abstract(参考訳): 本稿では,voxelレベル表現の自己教師付き学習(ssl)のための対比手法vox2vecについて述べる。
vox2vec表現は特徴ピラミッドネットワーク(fpn)によってモデル化され、voxel表現は異なるピラミッドレベルから対応する特徴ベクトルの結合である。
fpnは、異なる拡張コンテキストにおける同じボクセルの類似表現と異なるボクセルの識別表現を生成するように事前訓練されている。
これにより、グローバルセマンティクス(身体の一部など)とローカルセマンティクス(例えば、異なる小器官、健康組織と腫瘍組織)の両方をキャプチャする統一されたマルチスケール表現が生まれる。
Vox2vec を用いて,FPN を 6500 以上の画像で事前トレーニングする。
プレトレーニングされた表現は,その上に単純なヘッドを装着し,22のセグメンテーションタスクに対するモデルのトレーニングを行うことで評価する。
Vox2vec は既存の医用画像 SSL 技術よりも、線形および非線形探索とエンドツーエンド微調整の3つの評価設定で優れていることを示す。
さらに、凍結したvox2vec表現上にトレーニングされた非線形ヘッドは、トレーニング可能なパラメータの50倍の少ないFPNとスクラッチからトレーニングされたFPNとの競合性能を達成する。
コードはhttps://github.com/mishgon/vox2vecで入手できる。
関連論文リスト
- Dense Self-Supervised Learning for Medical Image Segmentation [0.0]
本稿では,少数ショットセグメンテーションのための自己教師付き学習(SSL)アプローチであるPix2Repを提案する。
ラベルのない画像から直接、強力なピクセルレベルの表現を学習することで、手動によるアノテーションの負担を軽減する。
その結果、既存の半教師付きアプローチや自己教師型アプローチと比較して性能が向上した。
論文 参考訳(メタデータ) (2024-07-29T19:42:22Z) - XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training [29.02600107837688]
視覚と言語による事前学習は、画像とテキストのペアにおける対照的な学習を用いて、タスク間の効果的な伝達を実現する。
現在のモデルは、医療データの不足により、重要な病理的特徴を正確に再構築するのに苦労している。
本稿では,XLIP(Masked modelling for Medical Language-Image Pre-Training)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-28T17:38:21Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Two-Stream Network for Sign Language Recognition and Translation [38.43767031555092]
本稿では、生ビデオとキーポイントシーケンスの両方をモデル化するために、2つの別々のストリームを含むデュアルビジュアルエンコーダを提案する。
結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識に適している。
TwoStream-SLTは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換モデルであるTwoStream-SLTに拡張される。
論文 参考訳(メタデータ) (2022-11-02T17:59:58Z) - Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction [142.61256012419562]
本稿では,ボクセルをベースとした表面再構成手法であるVoxurfを提案する。
ボクサーフは,(1)コヒーレントな粗い形状を達成し,細部を連続的に再現する2段階の訓練手順,2)色-幾何学的依存性を維持する2色ネットワーク,3)ボクセル間の情報伝達を促進する階層的幾何学的特徴などを通じて,上記の課題に対処する。
論文 参考訳(メタデータ) (2022-08-26T14:48:02Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。