論文の概要: Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2508.01941v1
- Date: Sun, 03 Aug 2025 22:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.720274
- Title: Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation
- Title(参考訳): AMBER-AFNO - 軽量な3D医療画像セグメンテーションのためのベンチマーク
- Authors: Andrea Dosi, Semanto Mondal, Rajib Chandra Ghosh, Massimo Brescia, Giuseppe Longo,
- Abstract要約: 我々は、もともとマルチバンド画像用に設計されたトランスフォーマーベースモデルであるAMBERを、3次元医療データキューブセグメンテーションのタスクに適用する。
AMBER-AFNOは、トレーニング効率、推論速度、メモリ使用量を大幅に向上させ、競争力または優れた精度を達成する。
- 参考スコア(独自算出の注目度): 0.57492870498084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents the results of a methodological transfer from remote sensing to healthcare, adapting AMBER -- a transformer-based model originally designed for multiband images, such as hyperspectral data -- to the task of 3D medical datacube segmentation. In this study, we use the AMBER architecture with Adaptive Fourier Neural Operators (AFNO) in place of the multi-head self-attention mechanism. While existing models rely on various forms of attention to capture global context, AMBER-AFNO achieves this through frequency-domain mixing, enabling a drastic reduction in model complexity. This design reduces the number of trainable parameters by over 80% compared to UNETR++, while maintaining a FLOPs count comparable to other state-of-the-art architectures. Model performance is evaluated on two benchmark 3D medical datasets -- ACDC and Synapse -- using standard metrics such as Dice Similarity Coefficient (DSC) and Hausdorff Distance (HD), demonstrating that AMBER-AFNO achieves competitive or superior accuracy with significant gains in training efficiency, inference speed, and memory usage.
- Abstract(参考訳): この研究は、リモートセンシングから医療への方法論的移行の結果を示し、3D医療データキューブセグメンテーションのタスクにAMBER(もともとはハイパースペクトルデータなどのマルチバンド画像用に設計されたトランスフォーマーベースモデル)を適用した。
本研究では,アダプティブフーリエニューラル演算子(AFNO)を用いたAMBERアーキテクチャを,マルチヘッド自己注意機構の代わりに用いる。
既存のモデルは、グローバルなコンテキストを捉えるために様々な形で注意を払っているが、AMBER-AFNOは周波数領域の混合によってこれを達成し、モデルの複雑さを大幅に減らすことができる。
この設計では、UNETR++と比較してトレーニング可能なパラメータの数を80%以上削減し、他の最先端アーキテクチャに匹敵するFLOP数を維持できる。
モデルパフォーマンスは、Dice similarity Coefficient(DSC)やHausdorff Distance(HD)といった標準メトリクスを使用して、ACDCとSynapseという2つのベンチマーク3D医療データセットで評価され、AMBER-AFNOが、トレーニング効率、推論速度、メモリ使用率の大幅な向上とともに、競争力または優れた精度を達成することを示した。
関連論文リスト
- SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint [0.7879983966759583]
本研究では,メモリベースのVFMを用いた3次元MRIによる軟骨・半月板分割のためのディープラーニング(DL)手法を提案する。
我々はCNNベースの3D-VNetと2つの自動トランスフォーマーベースモデル(SaMRI2DとSaMRI3D)、およびトランスフォーマーベースのプロンプト可能なメモリベースVFM(SAMRI-2)を270例の3D膝MRIで訓練した。
SAMRI-2はHSSで訓練され、他の全てのモデルより優れ、平均5ポイント改善し、最高12ポイント向上した。
論文 参考訳(メタデータ) (2025-02-14T21:18:01Z) - EM-Net: Efficient Channel and Frequency Learning with Mamba for 3D Medical Image Segmentation [3.6813810514531085]
我々は,EM-Netと呼ばれる新しい3次元医用画像セグメンテーションモデルを紹介し,その成功に触発されて,新しいマンバベースの3次元医用画像セグメンテーションモデルであるEM-Netを紹介した。
提案手法は,SOTAモデルのパラメータサイズをほぼ半分にし,訓練速度を2倍に向上させながら,より高精度なセグメンテーション精度を示すことを示す。
論文 参考訳(メタデータ) (2024-09-26T09:34:33Z) - PAM: A Propagation-Based Model for Segmenting Any 3D Objects across Multi-Modal Medical Images [11.373941923130305]
PAM(Propagating Anything Model)は、境界ボックスやスケッチのような2Dプロンプトを使用して、医療画像ボリュームの完全な3Dセグメンテーションを作成するセグメンテーションアプローチである。
MedSAMやSegVolのような既存のモデルでは、44の医療データセットと様々な種類のオブジェクトに対して平均18.1%以上のダイス類似度係数(DSC)が向上した。
論文 参考訳(メタデータ) (2024-08-25T13:42:47Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - DiTMoS: Delving into Diverse Tiny-Model Selection on Microcontrollers [34.282971510732736]
我々は、セレクタ分類器アーキテクチャを備えた新しいDNNトレーニングおよび推論フレームワークであるDiTMoSを紹介する。
弱いモデルの合成は高い多様性を示すことができ、それらの結合は精度の上限を大幅に高めることができる。
我々は,Nucleo STM32F767ZIボード上にDiTMoSをデプロイし,人間の活動認識,キーワードスポッティング,感情認識のための時系列データセットに基づいて評価する。
論文 参考訳(メタデータ) (2024-03-14T02:11:38Z) - 3D-CLMI: A Motor Imagery EEG Classification Model via Fusion of 3D-CNN
and LSTM with Attention [0.174048653626208]
本稿では,3次元畳み込みニューラルネットワーク(CNN)と長期記憶ネットワーク(LSTM)を組み合わせて運動画像(MI)信号を分類するモデルを提案する。
実験の結果、このモデルは、BCIコンペティションIVデータセット2aの分類精度92.7%、F1スコア0.91に達した。
このモデルにより、ユーザの運動像意図の分類精度が大幅に向上し、自律走行車や医療リハビリテーションといった新興分野における脳-コンピュータインタフェースの応用可能性が改善された。
論文 参考訳(メタデータ) (2023-12-20T03:38:24Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Multiscale Metamorphic VAE for 3D Brain MRI Synthesis [5.060516201839319]
3次元脳MRIの創発的モデリングは、データ分布の十分なカバレッジを確保しつつ、高い視覚的忠実度を達成することの難しさを示す。
本研究では, この課題に対して, 可変オートエンコーダフレームワークにおける構成可能なマルチスケール形態素変換を用いて対処することを提案する。
VAEやGAN(Generative Adversarial Network)をベースとした先行作業と比較して,FIDの性能は,同等あるいは優れた再現品質を維持しつつ,大幅に向上した。
論文 参考訳(メタデータ) (2023-01-09T09:15:30Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。