論文の概要: T3: Test-Time Model Merging in VLMs for Zero-Shot Medical Imaging Analysis
- arxiv url: http://arxiv.org/abs/2510.27265v1
- Date: Fri, 31 Oct 2025 08:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.032855
- Title: T3: Test-Time Model Merging in VLMs for Zero-Shot Medical Imaging Analysis
- Title(参考訳): T3:ゼロショット医用画像解析のためのVLMにおける試験時間モデルマージ
- Authors: Raza Imam, Hu Wang, Dwarikanath Mahapatra, Mohammad Yaqub,
- Abstract要約: 既存のモデルマージ技術は、様々な医学的手段で一貫した利益をもたらすことができません。
サンプル単位の係数を計算するバックプロパゲーションフリーフレームワークであるTest-Time Task Adaptive merging (T3)を導入する。
ドメイン内、ベース・ツー・ノーベル、および4つのモダリティにまたがる汚職にまたがる厳密な相互評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 15.624549727053475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In medical imaging, vision-language models face a critical duality: pretrained networks offer broad robustness but lack subtle, modality-specific characteristics, while fine-tuned expert models achieve high in-distribution accuracy yet falter under modality shift. Existing model-merging techniques, designed for natural-image benchmarks, are simple and efficient but fail to deliver consistent gains across diverse medical modalities; their static interpolation limits reliability in varied clinical tasks. To address this, we introduce Test-Time Task adaptive merging (T^3), a backpropagation-free framework that computes per-sample interpolation coefficients via the Jensen-Shannon divergence between the two models' output distributions. T^3 dynamically preserves local precision when models agree and defers to generalist robustness under drift. To overcome the inference costs of sample-wise merging, we further propose a batch-wise extension, T^3_B, that computes a merging coefficient across a batch of samples, dramatically reducing computational bottleneck. Recognizing the lack of a standardized medical-merging benchmark, we present a rigorous cross-evaluation protocol spanning in-domain, base-to-novel, and corruptions across four modalities. Empirically, T^3 sets new state-of-the-art in Top-1 accuracy and error reduction, outperforming strong baselines while maintaining efficiency, paving the way for adaptive MVLM deployment in clinical settings. Our code is available at https://github.com/Razaimam45/TCube.
- Abstract(参考訳): 事前訓練されたネットワークは広い堅牢性を提供するが、微妙でモダリティ特有の特徴は欠如している。
既存のモデルマージ技術は、自然画像のベンチマークのために設計されており、シンプルで効率的であるが、様々な医学的モダリティで一貫した利益をもたらすことができず、静的補間は様々な臨床タスクにおける信頼性を制限する。
これを解決するために,両モデルの出力分布間のJensen-Shannon分散を用いて,サンプルごとの補間係数を計算するバックプロパゲーションフリーフレームワークであるTest-Time Task Adaptive merging (T^3)を導入する。
T^3は、モデルがドリフトの下で一般のロバスト性に一致してデフレした場合、局所的精度を動的に保存する。
さらに,サンプルのバッチ間のマージ係数を計算し,計算ボトルネックを劇的に低減するバッチワイズ拡張T^3_Bを提案する。
標準化された医療統合ベンチマークが欠如していることを認識し、4つのモダリティにまたがるドメイン、ベース・ツー・ノーベル、汚職にまたがる厳密な相互評価プロトコルを提案する。
経験的に、T^3はTop-1の精度と誤差の低減を新たな最先端に設定し、効率を保ちながら強いベースラインを上回り、臨床環境での適応MVLM展開の道を開く。
私たちのコードはhttps://github.com/Razaimam45/TCube.comから入手可能です。
関連論文リスト
- Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - Scalable, Explainable and Provably Robust Anomaly Detection with One-Step Flow Matching [14.503330877000758]
Time-Conditioned Contraction Matching is a novel method for semi-supervised anomaly detection in tabular data。
これは、確率分布間の速度場を学習する最近の生成モデリングフレームワークであるフローマッチングにインスパイアされている。
ADBenchベンチマークの大規模な実験により、TCCMは検出精度と推論コストのバランスが良好であることが示されている。
論文 参考訳(メタデータ) (2025-10-21T06:26:38Z) - Score Distillation of Flow Matching Models [67.86066177182046]
我々は、Score Identity Distillation (SiD) を事前訓練されたテキスト対画像フローマッチングモデルに拡張する。
SiDは、データフリーとデータアシストの両方の設定で、これらのモデルですぐに使える。
これは、スコア蒸留がテキストと画像のフローマッチングモデルに広く適用されるという最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2025-09-29T17:45:48Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Test-time Adaptation for Foundation Medical Segmentation Model without Parametric Updates [27.933665582178115]
基礎医療セグメンテーションモデルは、MedSAMが最も人気があり、臓器や病変をまたいで有望なパフォーマンスを実現している。
MedSAMは、複雑な構造と外観を持つ特定の病変に対する妥協されたパフォーマンスと、バウンディングボックスのプロンプトによる摂動に悩まされている。
本稿では,分布近似型潜在条件付きランダム場損失とエントロピー最小化損失を併用して,後続予測確率の因子化条件付き確率を最大化する手法を提案する。
論文 参考訳(メタデータ) (2025-04-02T03:03:34Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Deep Convolutional Neural Networks Predict Elasticity Tensors and their
Bounds in Homogenization [0.0]
3次元畳み込みニューラルネットワーク(CNN)は、ランダムな異種二相材料と弾力的なマクロスケールの硬さを結びつけるよう訓練されている。
CNNは、標準試験セットだけでなく、ダイヤモンドベースのコーティングの実際の2相微細構造のサンプルにも予測精度を示す。
論文 参考訳(メタデータ) (2021-09-04T15:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。