論文の概要: Sparse Spectral LoRA: Routed Experts for Medical VLMs
- arxiv url: http://arxiv.org/abs/2604.01310v1
- Date: Wed, 01 Apr 2026 18:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.76294
- Title: Sparse Spectral LoRA: Routed Experts for Medical VLMs
- Title(参考訳): Sparse Spectral LoRA:医療用VLMの専門家
- Authors: Omid Nejati Manzari, Hojat Asgariandehkordi, Taha Koleilat, Yiming Xiao, Hassan Rivaz,
- Abstract要約: 大きな視覚言語モデル(VLM)は一般的なベンチマークでは優れているが、医用画像の堅牢性に欠けることが多い。
MedQwenはパラメータ効率のよい医療用VLMで、スペクトルルーティングされたMixture-of-Experts (MoE) と理論的に基底化されたスケーリングルールを結合する。
23の医療データセットに対して、MedQwenは強力で信頼性の高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 9.359961857595144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) excel on general benchmarks but often lack robustness in medical imaging, where heterogeneous supervision induces cross-dataset interference and sensitivity to data regime (i.e., how the supervisory signals are mixed). In realistic clinical workflows, data and tasks arrive sequentially, so naive continual training further leads to catastrophic forgetting. To address these challenges, we propose MedQwen, a parameter-efficient medical VLM that couples a spectrally routed Mixture-of-Experts (MoE) with a theoretically grounded scaling rule that aligns low-rank updates with a full-rank, fully fine-tuned MoE, without changing the base architecture. Concretely, we initialize each expert from non-overlapping singular value decomposition (SVD) segments of the pretrained weight and introduce a residual compensation and scaling scheme to enable stable expert specialization and consistent routing under distribution shift. Across 23 medical datasets covering visual question answering, report generation, radiology classification, and hallucination mitigation, MedQwen achieves strong, reliable performance: it approaches full fine-tuning on zero-shot classification with 339$\times$ fewer trainable parameters, and reduces sequential forgetting to $\sim$5\% where strong baselines degrade by $>$20-50\%.
- Abstract(参考訳): 大規模な視覚言語モデル(VLM)は一般的なベンチマークでは優れているが、医用画像の堅牢性に欠けることが多い。
リアルな臨床ワークフローでは、データとタスクが順次やってくるので、ナイーブな継続的なトレーニングは破滅的な忘れを招きます。
これらの課題に対処するために,MedQwenを提案する。MedQwenはスペクトルルーティングされたMixture-of-Experts(MoE)を,ベースアーキテクチャを変更することなく,低ランクな更新をフルランクでフルチューニングされたMoEに整合させる理論的基盤のスケーリングルールに結合する,パラメータ効率のよい医療用VLMである。
具体的には,各専門家を事前訓練した重量の非重複特異値分解(SVD)セグメントから初期化し,安定な専門家の専門化と分散シフト下での一貫したルーティングを実現するための残差補償とスケーリング方式を導入する。
MedQwenは、視覚的質問応答、レポート生成、放射線学分類、幻覚の緩和を含む23の医療データセットを網羅し、ゼロショット分類の完全な微調整に339$\times$トレーニング可能なパラメータを減らし、強いベースラインが20-50\%以上低下した場合、シーケンシャルな忘れを$\sim$5\%に減らした。
関連論文リスト
- Missing-Aware Multimodal Fusion for Unified Microservice Incident Management [22.703696384749595]
ARMORは、モダリティの欠如を前提とした、自己管理型のフレームワークである。
自己監督型自己回帰とマスク誘導型再構成を用いて、異常検出、障害トリアージ、根本原因の局在を共同で最適化する。
完全なデータ条件下での最先端性能を実現し、厳密なモダリティ損失でも堅牢な診断精度を維持する。
論文 参考訳(メタデータ) (2026-03-26T15:14:57Z) - Automated Lesion Segmentation of Stroke MRI Using nnU-Net: A Comprehensive External Validation Across Acute and Chronic Lesions [0.0]
複数のMRIデータセットにまたがるnU-Netフレームワークを用いて脳卒中病変のセグメンテーションを評価する。
脳卒中期にはモデルが頑健な一般化を示し, セグメンテーション精度はレータ間信頼性に近づいた。
急性期において、DWIで訓練されたモデルはFLAIRベースのモデルより一貫して優れており、マルチモーダルの組み合わせからわずかに利益を得ただけだった。
慢性期脳卒中では、トレーニングセットのサイズが増加し、数百件以上のリターンが低下した。
論文 参考訳(メタデータ) (2026-01-13T16:29:20Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Parameterized Diffusion Optimization enabled Autoregressive Ordinal Regression for Diabetic Retinopathy Grading [53.11883409422728]
本研究は, AOR-DRと呼ばれる新しい自己回帰的順序回帰法を提案する。
我々は,糖尿病網膜症分類タスクを,前ステップの予測と抽出画像の特徴を融合させることにより,一連の順序段階に分解する。
拡散過程を利用して条件付き確率モデリングを行い、連続的グローバルな画像特徴を自己回帰に利用できるようにする。
論文 参考訳(メタデータ) (2025-07-07T13:22:35Z) - A Vector-Quantized Foundation Model for Patient Behavior Monitoring [41.48188433408574]
本稿では,スマートフォンやウェアラブルデバイスからの実世界のデータを処理するために設計されたベクトル量子化変分自動エンコーダを改良した基礎モデルを提案する。
本研究では, 個別の潜伏表現を利用して, 微調整を必要とせず, 2つの下流課題, 自殺リスク評価, 情緒的状態予測を効果的に実施した。
論文 参考訳(メタデータ) (2025-03-19T14:01:16Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。