論文の概要: The Impact of Image Resolution on Biomedical Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.18304v1
- Date: Tue, 21 Oct 2025 05:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.931774
- Title: The Impact of Image Resolution on Biomedical Multimodal Large Language Models
- Title(参考訳): バイオメディカルマルチモーダル大言語モデルにおける画像分解能の影響
- Authors: Liangyu Chen, James Burgess, Jeffrey J Nirschl, Orr Zohar, Serena Yeung-Levy,
- Abstract要約: MLLM(Multimodal large language model)は、バイオメディカルな画像解析を約束する言語である。
ほとんどが汎用データセットからの低解像度の画像のために設計されており、重要な情報損失のリスクがある。
バイオメディカル応用における画像分解能のMLLM性能への影響について検討する。
- 参考スコア(独自算出の注目度): 19.47018571969315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imaging technologies are fundamental to biomedical research and modern medicine, requiring analysis of high-resolution images across various modalities. While multimodal large language models (MLLMs) show promise for biomedical image analysis, most are designed for low-resolution images from general-purpose datasets, risking critical information loss. We investigate how image resolution affects MLLM performance in biomedical applications and demonstrate that: (1) native-resolution training and inference significantly improve performance across multiple tasks, (2) misalignment between training and inference resolutions severely degrades performance, and (3) mixed-resolution training effectively mitigates misalignment and balances computational constraints with performance requirements. Based on these findings, we recommend prioritizing native-resolution inference and mixed-resolution datasets to optimize biomedical MLLMs for transformative impact in scientific research and clinical applications.
- Abstract(参考訳): イメージング技術はバイオメディカル研究や現代医学の基本であり、様々なモードにわたる高解像度画像の解析を必要とする。
MLLM(Multimodal large language model)はバイオメディカルな画像解析を約束するが、そのほとんどは汎用データセットの低解像度画像のために設計されており、重要な情報損失のリスクがある。
バイオメディカルアプリケーションにおける画像分解能がMLLMのパフォーマンスに与える影響について検討し,(1)ネイティブ解像度のトレーニングと推論が複数のタスクにおけるパフォーマンスを著しく向上させること,(2)トレーニングと推論の解決のミスアライメントが性能を著しく低下させること,(3)混合解像度のトレーニングが性能要件とのミスアライメントとバランスを効果的に緩和することを示した。
これらの知見に基づき, バイオメディカルMLLMを科学的研究および臨床応用における変革的影響に最適化するために, ネイティブレゾリューション推論と混合レゾリューションデータセットの優先順位付けを推奨する。
関連論文リスト
- Task-Aware Resolution Optimization for Visual Large Language Models [57.85959322093884]
ほとんどの視覚的大言語モデル(VLLM)は、下流タスクの固定解像度を前提としており、サブパーパフォーマンスをもたらす。
本稿では,これらの2つの要因を組み合わせ,与えられた視覚言語課題の最適解を求める実験式を提案する。
第二に、厳密な実験に基づいて、事前学習したVLLMの視覚入力分解能を同定された最適分解能に拡張する新しいパラメータ効率の微調整手法を提案する。
論文 参考訳(メタデータ) (2025-10-10T19:53:30Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - UMIT: Unifying Medical Imaging Tasks via Vision-Language Models [17.65946656129399]
UMITは医療画像処理に特化したマルチモーダル・マルチタスクVLMである。
視覚的質問応答、疾患検出、医療報告生成など、さまざまな課題を解決できる。
英語と中国語の両方をサポートし、その適用範囲を全世界で拡大している。
論文 参考訳(メタデータ) (2025-03-20T06:43:36Z) - Super-Resolution for Interferometric Imaging: Model Comparisons and Performance Analysis [0.0]
この研究は、超解像モデルRCANとReal-ESRGANの2つを評価し、マイクロ粒子ベースのデータセットから高分解能インターフェログラムを再構成する効果について評価した。
その結果、RCANは優れた数値精度を実現し、高精度な位相マップ再構成を必要とするアプリケーションに最適であることが示された。
論文 参考訳(メタデータ) (2025-02-21T11:50:57Z) - A Unified Model for Compressed Sensing MRI Across Undersampling Patterns [69.19631302047569]
様々な計測アンサンプパターンと画像解像度に頑健な統合MRI再構成モデルを提案する。
我々のモデルは、拡散法よりも600$times$高速な推論で、最先端CNN(End-to-End VarNet)の4dBでSSIMを11%改善し、PSNRを4dB改善する。
論文 参考訳(メタデータ) (2024-10-05T20:03:57Z) - Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography [4.004641316826348]
マンモグラフィーへの完全CLIPモデルの最初の適応の一つを提案する。
われわれはまず,マンモグラフィーの多視点性を活用した特別監視フレームワークを開発する。
最後に,データ制限に対処するために,医学知識を事前学習した大規模言語モデルに対して,パラメータ効率のよい微調整手法を取り入れた。
論文 参考訳(メタデータ) (2024-09-26T17:56:59Z) - Super-resolution of biomedical volumes with 2D supervision [84.5255884646906]
超解像のための仮設スライス拡散は、生物学的標本のすべての空間次元にわたるデータ生成分布の固有同値性を利用する。
我々は,高解像度2次元画像の高速取得を特徴とするSliceRの組織学的刺激(SRH)への応用に着目する。
論文 参考訳(メタデータ) (2024-04-15T02:41:55Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - LMFLOSS: A Hybrid Loss For Imbalanced Medical Image Classification [2.4866930218890837]
医用画像データセットにおけるクラス不均衡問題を軽減するために,Large Margin aware(LMF)損失という新しいフレームワークを提案する。
この枠組みは、マイノリティクラスに対してより広いマージンを課すことにより、両方の損失関数の明確な特性を利用する。
提案手法が他のベースライン法より一貫して優れていることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2022-12-24T14:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。