論文の概要: Revisiting CLIP: Efficient Alignment of 3D MRI and Tabular Data using Domain-Specific Foundation Models
- arxiv url: http://arxiv.org/abs/2501.14051v1
- Date: Thu, 23 Jan 2025 19:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:48.469603
- Title: Revisiting CLIP: Efficient Alignment of 3D MRI and Tabular Data using Domain-Specific Foundation Models
- Title(参考訳): CLIPを再考する:ドメイン特化基礎モデルを用いた3次元MRIとタブラルデータの効率的なアライメント
- Authors: Jakob Krogh Petersen, Valdemar Licht, Mads Nielsen, Asbjørn Munk,
- Abstract要約: 画像エンコーダとして、ドメイン固有の3D基盤モデルをトレーニングすることで、CLIPスタイルのアライメントを再考する。
本手法は,3次元のトレーニングに必要な簡易な埋め込み蓄積戦略によって実現されている。
- 参考スコア(独自算出の注目度): 2.0749231618270803
- License:
- Abstract: Multi-modal models require aligned, shared embedding spaces. However, common CLIP-based approaches need large amounts of samples and do not natively support 3D or tabular data, both of which are crucial in the medical domain. To address these issues, we revisit CLIP-style alignment by training a domain-specific 3D foundation model as an image encoder and demonstrate that modality alignment is feasible with only 62 MRI scans. Our approach is enabled by a simple embedding accumulation strategy required for training in 3D, which scales the amount of negative pairs across batches in order to stabilize training. We perform a thorough evaluation of various design choices, including the choice of backbone and loss functions, and evaluate the proposed methodology on zero-shot classification and image-retrieval tasks. While zero-shot image-retrieval remains challenging, zero-shot classification results demonstrate that the proposed approach can meaningfully align the representations of 3D MRI with tabular data.
- Abstract(参考訳): マルチモーダルモデルは、整列された共有埋め込み空間を必要とする。
しかし、一般的なCLIPベースのアプローチは大量のサンプルを必要とし、3Dデータや表形式のデータをネイティブにサポートしていない。
これらの課題に対処するため,領域固有の3次元基盤モデルを画像エンコーダとしてトレーニングすることでCLIPスタイルのアライメントを再検討し,62個のMRIスキャンでモダリティアライメントが実現可能であることを示す。
提案手法は,3次元の学習に必要となる単純な埋め込み蓄積戦略によって実現され,学習を安定させるためにバッチ間の負のペアの量を拡大する。
バックボーンとロス関数の選択を含む様々な設計選択を徹底的に評価し、ゼロショット分類と画像検索タスクに関する提案手法を評価する。
ゼロショット画像検索は依然として困難であるが, ゼロショット分類の結果から, 提案手法は3次元MRIの表現を表計算データと有意に整合させることができることが示された。
関連論文リスト
- Data Adaptive Few-shot Multi Label Segmentation with Foundation Model [0.0]
数発のセグメンテーションのための最先端の手法は、医療画像の準最適性能に悩まされている。
単一ラベル,多ラベルローカライゼーション,セグメンテーションのための基礎モデル (FM) ベースのアダプタを提案する。
論文 参考訳(メタデータ) (2024-10-13T07:29:13Z) - SAM3D: Zero-Shot Semi-Automatic Segmentation in 3D Medical Images with the Segment Anything Model [3.2554912675000818]
SAM3Dは,既存のセグメンテーションモデル上に構築された3次元画像の半自動ゼロショットセグメンテーションのための新しいアプローチである。
ユーザが3Dポリラインでプロンプトし、複数の軸に沿ってボリュームスライスし、事前訓練されたモデルでスライスワイド推論を行い、3Dで再構成と洗練を行う4段階の戦略で、3D画像の高速かつ正確なセグメンテーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T19:26:17Z) - PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - CORPS: Cost-free Rigorous Pseudo-labeling based on Similarity-ranking
for Brain MRI Segmentation [3.1657395760137406]
本稿では,新しいアトラスを用いた擬似ラベル法と3次元脳MRI分割のための3次元深部畳み込みニューラルネットワーク(DCNN)に基づく半教師付きセグメンテーションフレームワークを提案する。
実験により, 定性的, 定量的に比較して, 提案手法の優位性を示した。
論文 参考訳(メタデータ) (2022-05-19T14:42:49Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Planar 3D Transfer Learning for End to End Unimodal MRI Unbalanced Data
Segmentation [0.0]
本稿では,事前学習した2次元畳み込みニューラルネットワーク重みを平面3次元カーネルにマッピングする手法を提案する。
提案手法は2次元VGG-16から転送されるエンコーダを備えた平面3Dres-u-netネットワークにより検証される。
論文 参考訳(メタデータ) (2020-11-23T17:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。