論文の概要: Spatial-Aware Self-Supervision for Medical 3D Imaging with Multi-Granularity Observable Tasks
- arxiv url: http://arxiv.org/abs/2509.05967v1
- Date: Sun, 07 Sep 2025 08:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.796857
- Title: Spatial-Aware Self-Supervision for Medical 3D Imaging with Multi-Granularity Observable Tasks
- Title(参考訳): マルチグラニュラリティー・オブザーバブルタスクを用いた医用3次元イメージングのための空間認識型セルフスーパービジョン
- Authors: Yiqin Zhang, Meiling Chen, Zhengjie Zhang,
- Abstract要約: 医用3次元画像における空間的意味を捉えるために,3つのサブタスクからなる手法を提案する。
彼らの設計は、解釈可能性を確保するために観測可能な原則に準拠し、その結果生じるパフォーマンス損失を可能な限り最小化します。
- 参考スコア(独自算出の注目度): 4.097364225798782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of self-supervised techniques has become increasingly prevalent within medical visualization tasks, primarily due to its capacity to mitigate the data scarcity prevalent in the healthcare sector. The majority of current works are influenced by designs originating in the generic 2D visual domain, which lack the intuitive demonstration of the model's learning process regarding 3D spatial knowledge. Consequently, these methods often fall short in terms of medical interpretability. We propose a method consisting of three sub-tasks to capture the spatially relevant semantics in medical 3D imaging. Their design adheres to observable principles to ensure interpretability, and minimize the performance loss caused thereby as much as possible. By leveraging the enhanced semantic depth offered by the extra dimension in 3D imaging, this approach incorporates multi-granularity spatial relationship modeling to maintain training stability. Experimental findings suggest that our approach is capable of delivering performance that is on par with current methodologies, while facilitating an intuitive understanding of the self-supervised learning process.
- Abstract(参考訳): 自己監督技術の適用は、主に医療セクターで一般的なデータ不足を緩和する能力のために、医療視覚化タスクにおいてますます普及している。
現在の作品の大部分は、一般的な2次元視覚領域を起源とするデザインの影響を受けており、3次元空間知識に関するモデルの学習過程の直感的なデモが欠如している。
したがって、これらの方法は医学的解釈可能性の観点からは不足することが多い。
医用3次元画像における空間的意味を捉えるために,3つのサブタスクからなる手法を提案する。
彼らの設計は、解釈可能性を確保するために観測可能な原則に準拠し、その結果生じるパフォーマンス損失を可能な限り最小化します。
3次元画像における余剰次元によって提供される拡張意味深度を活用することにより、訓練安定性を維持するために多粒度空間関係モデリングを取り入れる。
実験結果から,本手法は,自己指導型学習プロセスの直感的な理解を図りながら,現在の手法と同等のパフォーマンスを実現することが可能であることが示唆された。
関連論文リスト
- Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - Medical Semantic Segmentation with Diffusion Pretrain [1.9415817267757087]
近年のディープラーニングの進歩は、多くのコンピュータビジョンタスクの成功にロバストな特徴表現の学習が不可欠であることを示している。
本稿では,3次元医用画像データの複雑化に合わせて,解剖学的ガイダンスを持つ拡散モデルを用いた新しい事前学習戦略を提案する。
拡散過程において3次元の普遍的な身体部分座標を予測しガイダンスを与えるモデルを用いる。
論文 参考訳(メタデータ) (2025-01-31T16:25:49Z) - Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文 参考訳(メタデータ) (2024-12-12T06:09:49Z) - MT3DNet: Multi-Task learning Network for 3D Surgical Scene Reconstruction [0.0]
画像支援最小侵襲手術(MIS)では,手術シーンの理解が外科医へのリアルタイムフィードバックに不可欠である。
この課題は、高解像度の画像で描かれた手術シーンの深さを正確に検出し、セグメンテーションし、推定することにある。
これらのタスクを同時に実行するために,Multi-Task Learning (MTL) ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T07:07:35Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through Probabilistic-aware Learning [47.700298779672366]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - An explainable three dimension framework to uncover learning patterns: A unified look in variable sulci recognition [2.960322639147262]
我々は、高精度で低複雑さなグローバルな説明を提供することができる説明可能な人工知能(XAI)3Dフレームワークを開発した。
本フレームワークは,統計的特徴(Shape)とXAI法(GradCamとSHAP)を次元的還元と統合し,モデル学習とコホート固有変数の両方を反映した説明を確実にする。
これらの堅牢な説明は、後側頭頂部と内頭頂部を含む重要な亜領域の同定を促進した。
論文 参考訳(メタデータ) (2023-09-02T10:46:05Z) - A Point in the Right Direction: Vector Prediction for Spatially-aware
Self-supervised Volumetric Representation Learning [12.369884719068228]
VectorPOSEは、ベクトル予測(Vector Prediction)と境界焦点再構成(Bundary-Focused Restructation)という2つの新しいプリテキストタスクによって、より優れた空間的理解を促進する。
本研究では,3次元医用画像分割作業におけるVectorPOSEの評価を行った。
論文 参考訳(メタデータ) (2022-11-15T22:10:50Z) - 3D endoscopic depth estimation using 3D surface-aware constraints [16.161276518580262]
深度推定は3次元表面から行うことができることを示す。
本研究では,表面認識制約を統合した深度推定のための損失関数を提案する。
カメラパラメータは、深さ推定の制御と透明性を高めるために、トレーニングパイプラインに組み込まれる。
論文 参考訳(メタデータ) (2022-03-04T04:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。