論文の概要: Improvise, Adapt, Overcome -- Telescopic Adapters for Efficient Fine-tuning of Vision Language Models in Medical Imaging
- arxiv url: http://arxiv.org/abs/2512.13855v1
- Date: Mon, 15 Dec 2025 19:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.472866
- Title: Improvise, Adapt, Overcome -- Telescopic Adapters for Efficient Fine-tuning of Vision Language Models in Medical Imaging
- Title(参考訳): 医用画像における視覚言語モデルの効率的な微調整のためのテレスコープアダプタの改良・適応・オーバーカム
- Authors: Ujjwal Mishra, Vinita Shukla, Praful Hambarde, Amit Shukla,
- Abstract要約: 本稿では,浅層層から深層層層へのアダプタ容量向上のために,深部対応スケーリングを利用した新しいPEFTフレームワークを提案する。
提案手法は,CLIPSegの視覚とテキストエンコーダに軽量なボトルネックモジュールを統合し,層深度と意味的関連性に基づいてアダプタ次元を動的に拡張する。
本手法は, 資源制約された臨床環境への展開が可能な, 効率的な医療用VLSMファインチューニングのための新しいパラダイムを確立する。
- 参考スコア(独自算出の注目度): 0.7865560760233441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting Vision Language Segmentation Models (VLSMs) to medical imaging domains requires significant computational overhead when using conventional fine-tuning approaches. Existing Parameter-Efficient Fine-Tuning (PEFT) methods apply uniform adapter dimensions across all transformer layers, leading to suboptimal parameter allocation and reduced adaptation efficiency. We introduce Telescopic Adapters, a novel PEFT framework that employs depth-aware scaling to progressively increase adapter capacity from shallow to deep transformer layers. Our method integrates lightweight bottleneck modules within CLIPSeg's vision and text encoders, with adapter dimensions dynamically scaled based on layer depth and semantic relevance. Using only 613k trainable parameters--244x fewer than end-to-end fine-tuning, Telescopic Adapters achieve superior performance across five diverse medical datasets spanning polyp segmentation, skin lesion detection, and breast ultrasound imaging. Comprehensive ablation studies demonstrate that deeper layers require substantially more adaptation capacity than shallow layers, validating our telescopic scaling hypothesis. Our approach establishes a new paradigm for efficient medical VLSM fine-tuning, enabling deployment in resource-constrained clinical environments while maintaining competitive segmentation accuracy.
- Abstract(参考訳): ビジョン言語セグメンテーションモデル(VLSM)を医用画像領域に適用するには、従来の微調整手法を使用する場合、かなりの計算オーバーヘッドが必要となる。
既存のパラメータ効率の良いファインタニング(PEFT)法は、全ての変圧器層に均一なアダプタ次元を適用し、最適パラメータの割り当てと適応効率の低減につながる。
我々は,深層から深層トランスフォーマー層までのアダプタ容量を段階的に増加させるために,深層対応のスケーリングを利用する新しいPEFTフレームワークであるTelescopic Adaptersを紹介した。
提案手法は,CLIPSegの視覚とテキストエンコーダに軽量なボトルネックモジュールを統合し,層深度と意味的関連性に基づいてアダプタ次元を動的に拡張する。
トレーニング可能なパラメータはたった613kで、エンドツーエンドの微調整より244倍少ないため、Telescopic Adaptersはポリープのセグメンテーション、皮膚病変の検出、乳房の超音波画像といった5種類の医療データセットで優れたパフォーマンスを実現している。
包括的アブレーション研究により、より深い層は浅い層よりもかなり多くの適応能力を必要とし、我々の望遠的スケーリング仮説を検証した。
提案手法は, 競合セグメンテーションの精度を維持しつつ, 資源制約された臨床環境への展開を可能にする, 効率的な医療用VLSMファインチューニングのための新しいパラダイムを確立する。
関連論文リスト
- Subsampled Randomized Fourier GaLore for Adapting Foundation Models in Depth-Driven Liver Landmark Segmentation [6.91206648866302]
本稿では,視覚基盤エンコーダを用いた意味的および幾何学的手がかりを組み込んだディープガイド型肝ランドマークセグメンテーションフレームワークを提案する。
SAM2 を効率よく適応させるために,SRFT-GaLore は,計算コストの高い SVD をサブサンプリングランダム化フーリエ変換に置き換える,新しい低ランク勾配投影法である。
本手法は,D2GPLandと比較して,Dice類似度係数が4.85%向上し,平均対称表面距離が11.78ポイント削減された。
論文 参考訳(メタデータ) (2025-11-05T04:16:49Z) - CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging [0.3683202928838613]
CoMViTは、リソース制約のある医用画像解析に最適化された、コンパクトで一般化可能なVision Transformerアーキテクチャである。
12のMedMNISTデータセットで堅牢なパフォーマンスを実現し、4.5Mパラメータしか持たない軽量な設計を維持している。
論文 参考訳(メタデータ) (2025-10-31T12:49:13Z) - F-Adapter: Frequency-Adaptive Parameter-Efficient Fine-Tuning in Scientific Machine Learning [28.598598268071587]
プレトレーニング大型演算子モデル(LOM)のためのPEFTの最初の系統的研究を行う。
また,LoRA(Lo-Rank Adaptation)により,LOMの性能はアダプタチューニングよりも著しく低下することがわかった。
アダプタのロバストな経験的ゲインとスペクトルスパースとしてのPDE解の理論的特徴により、周波数適応アダプタ(F-Adapter)を導入する。
論文 参考訳(メタデータ) (2025-09-27T08:05:28Z) - Accelerating 3D Photoacoustic Computed Tomography with End-to-End Physics-Aware Neural Operators [74.65171736966131]
光音響計算トモグラフィ(PACT)は、光コントラストと超音波分解能を組み合わせることで、光拡散限界を超える深部像を実現する。
現在の実装では、高密度トランスデューサアレイと長い取得時間を必要とし、臨床翻訳を制限している。
本研究では,センサ計測からボリューム再構成まで,逆音響マッピングを直接学習する物理認識モデルであるPanoを紹介する。
論文 参考訳(メタデータ) (2025-09-11T23:12:55Z) - ClipGS: Clippable Gaussian Splatting for Interactive Cinematic Visualization of Volumetric Medical Data [51.095474325541794]
医用データのインタラクティブなシネマティック可視化のためのクリッピングプレーンを備えた革新的なガウススプレイティングフレームワークであるClipGSを紹介した。
本手法を5つのボリューム医療データで検証し,平均36.635 PSNRレンダリング品質を156 FPS,16.1MBモデルサイズで達成した。
論文 参考訳(メタデータ) (2025-07-09T08:24:28Z) - SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical
Image Segmentation [0.0]
医用画像セグメンテーションのためのシンプルなUNet-Transformer(seUNet-Trans)モデルを提案する。
提案手法では,UNetモデルを特徴抽出器として設計し,入力画像から複数の特徴マップを生成する。
UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2023-10-16T01:13:38Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z) - RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional
Network for Retinal OCT Fluid Segmentation [3.57686754209902]
OCTガイド下治療には網膜液の定量化が必要である。
RetiFluidNetと呼ばれる新しい畳み込みニューラルアーキテクチャは、多クラス網膜流体セグメンテーションのために提案されている。
モデルは、テクスチャ、コンテキスト、エッジといった特徴の階層的な表現学習の恩恵を受ける。
論文 参考訳(メタデータ) (2022-09-26T07:18:00Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。