Fugu-MT 論文翻訳(概要): Interpretable 2D Vision Models for 3D Medical Images

論文の概要: Interpretable 2D Vision Models for 3D Medical Images

arxiv url: http://arxiv.org/abs/2307.06614v3
Date: Tue, 5 Dec 2023 10:08:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 12:46:00.953678
Title: Interpretable 2D Vision Models for 3D Medical Images
Title（参考訳）: 3次元医用画像の解釈可能な2次元視覚モデル
Authors: Alexander Ziller, Ayhan Can Erdur, Marwa Trigui, Alp G\"uvenir, Tamara T. Mueller, Philip M\"uller, Friederike Jungmann, Johannes Brandt, Jan Peeken, Rickmer Braren, Daniel Rueckert, Georgios Kaissis
Abstract要約: 本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
参考スコア（独自算出の注目度）: 47.75089895500738
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training Artificial Intelligence (AI) models on 3D images presents unique challenges compared to the 2D case: Firstly, the demand for computational resources is significantly higher, and secondly, the availability of large datasets for pre-training is often limited, impeding training success. This study proposes a simple approach of adapting 2D networks with an intermediate feature representation for processing 3D images. Our method employs attention pooling to learn to assign each slice an importance weight and, by that, obtain a weighted average of all 2D slices. These weights directly quantify the contribution of each slice to the contribution and thus make the model prediction inspectable. We show on all 3D MedMNIST datasets as benchmark and two real-world datasets consisting of several hundred high-resolution CT or MRI scans that our approach performs on par with existing methods. Furthermore, we compare the in-built interpretability of our approach to HiResCam, a state-of-the-art retrospective interpretability approach.
Abstract（参考訳）: 第一に、計算資源の需要は著しく高く、第二に、事前トレーニングのための大規模なデータセットの可用性は、しばしば制限され、トレーニングの成功を妨げる。本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。提案手法では,各スライスに重要度を割り当てることを学ぶためにアテンションプールを用いて,各2dスライスの重み付け平均値を得る。これらの重みは、各スライスの貢献度を直接定量化し、モデル予測を検査可能にする。我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。さらに,私たちのアプローチが組み込まれている解釈可能性と,最先端のレトロスペクティブ解釈アプローチであるhirescamを比較した。

関連論文リスト

Semi-Supervised 3D Medical Segmentation from 2D Natural Images Pretrained Model [0.8758593614464055]
本稿では,3次元医用画像のセグメンテーションを改善するために,2次元自然画像に事前訓練された一般視覚モデルからの知識の伝達について検討する。本稿では,2次元事前学習モデルからスクラッチから学習した3次元セグメンテーションモデルまで,段階的に知識を蒸留するモデル非依存フレームワークを提案する。我々のアプローチであるM&Nは、互いに生成した擬似マスクを用いて2つのモデルの反復的協調学習と、提案した学習率誘導サンプリングを含む。
論文参考訳（メタデータ） (2025-09-18T17:17:52Z)
Introducing 3D Representation for Medical Image Volume-to-Volume Translation via Score Fusion [3.3559609260669303]
Score-Fusionは、垂直に訓練された2次元拡散モデルをスコア関数空間に組み込むことで、3次元表現を効果的に学習する新しいボリューム変換モデルである。 Score-Fusionは,3次元医用画像の高分解能・モダリティ変換において,高い精度と容積忠実性が得られることを示す。
論文参考訳（メタデータ） (2025-01-13T15:54:21Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
Cross-D Conv: Cross-Dimensional Transferable Knowledge Base via Fourier Shifting Operation [3.69758875412828]
クロスD Conv 演算はフーリエ領域における位相シフトを学習することで次元ギャップを橋渡しする。本手法は2次元と3次元の畳み込み操作間のシームレスな重み移動を可能にする。
論文参考訳（メタデータ） (2024-11-02T13:03:44Z)
Deep Convolutional Neural Networks on Multiclass Classification of Three-Dimensional Brain Images for Parkinson's Disease Stage Prediction [2.931680194227131]
パーキンソン病の病期を正確に予測できるモデルを開発した。我々は3次元脳画像全体を入力として使用した。予測過程において,異なるスライスの重要性を考慮に入れた注意機構を組み込んだ。
論文参考訳（メタデータ） (2024-10-31T05:40:08Z)
Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文参考訳（メタデータ） (2024-08-21T12:13:18Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。最近、研究者は焦点を2Dから3Dにシフトし始めた。 3Dデータの表現は、非常に大きな課題をもたらします。
論文参考訳（メタデータ） (2022-10-27T17:59:50Z)
RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文参考訳（メタデータ） (2022-05-14T05:35:35Z)
Super Images -- A New 2D Perspective on 3D Medical Imaging Analysis [0.0]
トレーニング中に3次元知識を効率的に埋め込んで3次元データを扱うための,シンプルで効果的な2次元手法を提案する。本手法は3次元画像にスライスを並べて超高分解能画像を生成する。 2次元ネットワークのみを利用した3次元ネットワークを実現する一方で、モデルの複雑さはおよそ3倍に減少する。
論文参考訳（メタデータ） (2022-05-05T09:59:03Z)
Cascaded deep monocular 3D human pose estimation with evolutionary training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文参考訳（メタデータ） (2020-06-14T03:09:52Z)
Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。提案手法を2つの大規模データセット上で評価する。
論文参考訳（メタデータ） (2020-03-17T08:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。