論文の概要: Toward Next-generation Medical Vision Backbones: Modeling Finer-grained Long-range Visual Dependency
- arxiv url: http://arxiv.org/abs/2509.11328v1
- Date: Sun, 14 Sep 2025 16:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.030987
- Title: Toward Next-generation Medical Vision Backbones: Modeling Finer-grained Long-range Visual Dependency
- Title(参考訳): 次世代医療ビジョンバックボーンを目指して : 有限粒長視野依存性のモデリング
- Authors: Mingyuan Meng,
- Abstract要約: 医用画像コンピューティング(MIC)は、ピクセルワイド(セグメンテーション、登録など)と画像ワイド(分類、回帰など)の両方を対象とする幅広い研究トピックである。
本研究は,遠距離視覚依存性モデリングを効果的に研究し,深層学習を推し進める。
- 参考スコア(独自算出の注目度): 2.267389203176188
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical Image Computing (MIC) is a broad research topic covering both pixel-wise (e.g., segmentation, registration) and image-wise (e.g., classification, regression) vision tasks. Effective analysis demands models that capture both global long-range context and local subtle visual characteristics, necessitating fine-grained long-range visual dependency modeling. Compared to Convolutional Neural Networks (CNNs) that are limited by intrinsic locality, transformers excel at long-range modeling; however, due to the high computational loads of self-attention, transformers typically cannot process high-resolution features (e.g., full-scale image features before downsampling or patch embedding) and thus face difficulties in modeling fine-grained dependency among subtle medical image details. Concurrently, Multi-layer Perceptron (MLP)-based visual models are recognized as computation/memory-efficient alternatives in modeling long-range visual dependency but have yet to be widely investigated in the MIC community. This doctoral research advances deep learning-based MIC by investigating effective long-range visual dependency modeling. It first presents innovative use of transformers for both pixel- and image-wise medical vision tasks. The focus then shifts to MLPs, pioneeringly developing MLP-based visual models to capture fine-grained long-range visual dependency in medical images. Extensive experiments confirm the critical role of long-range dependency modeling in MIC and reveal a key finding: MLPs provide feasibility in modeling finer-grained long-range dependency among higher-resolution medical features containing enriched anatomical/pathological details. This finding establishes MLPs as a superior paradigm over transformers/CNNs, consistently enhancing performance across various medical vision tasks and paving the way for next-generation medical vision backbones.
- Abstract(参考訳): 医用画像コンピューティング(MIC)は、ピクセルワイド(例えば、セグメンテーション、登録)と画像ワイド(例えば、分類、回帰)の両方を対象とする幅広い研究トピックである。
効果的な分析は、グローバルな長距離コンテキストと局所的な微妙な視覚特性の両方を捉え、細粒な長距離視覚依存性モデリングを必要とするモデルを要求する。
内在的な局所性によって制限される畳み込みニューラルネットワーク(CNN)と比較して、トランスフォーマーは長距離モデリングにおいて優れているが、自己アテンションの計算負荷が高いため、トランスフォーマーは通常、高精細な特徴(例えば、ダウンサンプリングやパッチ埋め込み前のフルスケールの画像特徴)を処理できないため、微妙な医用画像の詳細間できめ細かな依存性をモデル化するのは難しい。
同時に,多層パーセプトロン(MLP)に基づく視覚モデルは,長期的視覚依存をモデル化するための計算/メモリ効率の代替として認識されているが,MICコミュニティではまだ広く研究されていない。
本研究は,遠距離視覚依存性モデリングを効果的に研究することにより,深層学習に基づくMICを進展させる。
最初に、ピクセルと画像の両面での医療ビジョンタスクにトランスフォーマーの革新的利用を提示する。
焦点はMDPにシフトし、医療画像の細かな長距離の視覚依存を捉えるために、MDPベースの視覚モデルを開発した。
MLPは、豊富な解剖学的/病理学的詳細を含む高分解能な医学的特徴のうち、よりきめ細かな長距離依存をモデル化する可能性を提供します。
この発見は、MPPをトランスフォーマー/CNNよりも優れたパラダイムとして確立し、様々な医療ビジョンタスクのパフォーマンスを継続的に向上させ、次世代の医療ビジョンバックボーンへの道を開いた。
関連論文リスト
- Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - FAN-Unet: Enhancing Unet with vision Fourier Analysis Block for Biomedical Image Segmentation [5.318153305245246]
本稿では,Fourier Analysis Network(FAN)ベースのビジョンバックボーンとU-Netアーキテクチャの長所を組み合わせた,新しいアーキテクチャであるFAN-UNetを提案する。
提案したVision-FANレイヤは、FANレイヤと自己アテンションメカニズムを統合し、Fourier分析を活用して、モデルが長距離依存関係と周期的関係の両方を効果的にキャプチャすることを可能にする。
論文 参考訳(メタデータ) (2024-11-28T07:53:47Z) - Foundation Models for Slide-level Cancer Subtyping in Digital Pathology [1.7641392161755438]
本研究の目的は,MIL フレームワークを用いて,WSI 上の癌サブタイプのための事前訓練戦略に基づいて開発された様々な特徴抽出器の性能を比較することである。
その結果、6種類の皮膚がんの亜型を予測するために、イメージネットが事前訓練したモデルを超える基礎モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-10-21T11:04:58Z) - MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation [3.64388407705261]
医用画像分割のためのマルチスケールビジョンマンバUNetモデルMSVM-UNetを提案する。
具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴から、より効果的にマルチスケールの特徴表現をキャプチャし、集約することができる。
論文 参考訳(メタデータ) (2024-08-25T06:20:28Z) - MM-UNet: A Mixed MLP Architecture for Improved Ophthalmic Image Segmentation [3.2846676620336632]
眼科画像分割は眼疾患の診断において重要な基礎となる。
トランスフォーマーベースのモデルはこれらの制限に対処するが、かなりの計算オーバーヘッドをもたらす。
本稿では,眼内画像分割に適したMixedモデルであるMM-UNetを紹介する。
論文 参考訳(メタデータ) (2024-08-16T08:34:50Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Full-resolution MLPs Empower Medical Dense Prediction [11.195630893999203]
多層パーセプトロン(MLP)は、医療密度予測においてトランスフォーマーの優れた代替品である。
本フレームワークは,各種医療用高密度予測タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T11:32:23Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。