論文の概要: vox2vec: A Framework for Self-supervised Contrastive Learning of
Voxel-level Representations in Medical Images
- arxiv url: http://arxiv.org/abs/2307.14725v1
- Date: Thu, 27 Jul 2023 09:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:12:53.400011
- Title: vox2vec: A Framework for Self-supervised Contrastive Learning of
Voxel-level Representations in Medical Images
- Title(参考訳): vox2vec:医療画像におけるVoxelレベルの表現の自己教師型コントラスト学習フレームワーク
- Authors: Mikhail Goncharov, Vera Soboleva, Anvar Kurmukov, Maxim Pisov and
Mikhail Belyaev
- Abstract要約: vox2vecは、ボクセルレベルの表現の自己教師付き学習(SSL)のための対照的な方法である。
我々は、vox2vecを使って、6500以上の公開計算トモグラフィ画像上にフィーチャーピラミッドネットワーク(FPN)を事前トレーニングする。
Vox2vec は既存の医療画像 SSL 技術より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.055997926295092294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces vox2vec - a contrastive method for self-supervised
learning (SSL) of voxel-level representations. vox2vec representations are
modeled by a Feature Pyramid Network (FPN): a voxel representation is a
concatenation of the corresponding feature vectors from different pyramid
levels. The FPN is pre-trained to produce similar representations for the same
voxel in different augmented contexts and distinctive representations for
different voxels. This results in unified multi-scale representations that
capture both global semantics (e.g., body part) and local semantics (e.g.,
different small organs or healthy versus tumor tissue). We use vox2vec to
pre-train a FPN on more than 6500 publicly available computed tomography
images. We evaluate the pre-trained representations by attaching simple heads
on top of them and training the resulting models for 22 segmentation tasks. We
show that vox2vec outperforms existing medical imaging SSL techniques in three
evaluation setups: linear and non-linear probing and end-to-end fine-tuning.
Moreover, a non-linear head trained on top of the frozen vox2vec
representations achieves competitive performance with the FPN trained from
scratch while having 50 times fewer trainable parameters. The code is available
at https://github.com/mishgon/vox2vec .
- Abstract(参考訳): 本稿では,voxelレベル表現の自己教師付き学習(ssl)のための対比手法vox2vecについて述べる。
vox2vec表現は特徴ピラミッドネットワーク(fpn)によってモデル化され、voxel表現は異なるピラミッドレベルから対応する特徴ベクトルの結合である。
fpnは、異なる拡張コンテキストにおける同じボクセルの類似表現と異なるボクセルの識別表現を生成するように事前訓練されている。
これにより、グローバルセマンティクス(身体の一部など)とローカルセマンティクス(例えば、異なる小器官、健康組織と腫瘍組織)の両方をキャプチャする統一されたマルチスケール表現が生まれる。
Vox2vec を用いて,FPN を 6500 以上の画像で事前トレーニングする。
プレトレーニングされた表現は,その上に単純なヘッドを装着し,22のセグメンテーションタスクに対するモデルのトレーニングを行うことで評価する。
Vox2vec は既存の医用画像 SSL 技術よりも、線形および非線形探索とエンドツーエンド微調整の3つの評価設定で優れていることを示す。
さらに、凍結したvox2vec表現上にトレーニングされた非線形ヘッドは、トレーニング可能なパラメータの50倍の少ないFPNとスクラッチからトレーニングされたFPNとの競合性能を達成する。
コードはhttps://github.com/mishgon/vox2vecで入手できる。
関連論文リスト
- Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Two-Stream Network for Sign Language Recognition and Translation [38.43767031555092]
本稿では、生ビデオとキーポイントシーケンスの両方をモデル化するために、2つの別々のストリームを含むデュアルビジュアルエンコーダを提案する。
結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識に適している。
TwoStream-SLTは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換モデルであるTwoStream-SLTに拡張される。
論文 参考訳(メタデータ) (2022-11-02T17:59:58Z) - Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction [142.61256012419562]
本稿では,ボクセルをベースとした表面再構成手法であるVoxurfを提案する。
ボクサーフは,(1)コヒーレントな粗い形状を達成し,細部を連続的に再現する2段階の訓練手順,2)色-幾何学的依存性を維持する2色ネットワーク,3)ボクセル間の情報伝達を促進する階層的幾何学的特徴などを通じて,上記の課題に対処する。
論文 参考訳(メタデータ) (2022-08-26T14:48:02Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - flexgrid2vec: Learning Efficient Visual Representations Vectors [5.5217350574838875]
flexgrid2vecは画像表現学習の新しいアプローチである。
それぞれの画像を、フレキシブルでユニークなノード位置とエッジ距離のグラフで表現する。
flexgrid2vecはCIFAR-10で96.23%、CIFAR-100で83.05%、STL-10で94.50%、ASIRRAで98.8%、COCOデータセットで89.69%を達成している。
論文 参考訳(メタデータ) (2020-07-30T13:21:00Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。