論文の概要: Image Aesthetic Reasoning: A New Benchmark for Medical Image Screening with MLLMs
- arxiv url: http://arxiv.org/abs/2505.23265v1
- Date: Thu, 29 May 2025 09:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.778763
- Title: Image Aesthetic Reasoning: A New Benchmark for Medical Image Screening with MLLMs
- Title(参考訳): Image Aesthetic Reasoning: MLLMによる医用画像のスクリーニングのための新しいベンチマーク
- Authors: Zheng Sun, Yi Wei, Long Yu,
- Abstract要約: 画像スクリーニングの研究はまれであり、MLLMによる性能はデータ不足のため不満足である。
本研究では,データと方法論の観点から,これらの問題に対処するための完全な解を提案する。
- 参考スコア(独自算出の注目度): 20.222987035141646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are of great application across many domains, such as multimodal understanding and generation. With the development of diffusion models (DM) and unified MLLMs, the performance of image generation has been significantly improved, however, the study of image screening is rare and its performance with MLLMs is unsatisfactory due to the lack of data and the week image aesthetic reasoning ability in MLLMs. In this work, we propose a complete solution to address these problems in terms of data and methodology. For data, we collect a comprehensive medical image screening dataset with 1500+ samples, each sample consists of a medical image, four generated images, and a multiple-choice answer. The dataset evaluates the aesthetic reasoning ability under four aspects: \textit{(1) Appearance Deformation, (2) Principles of Physical Lighting and Shadow, (3) Placement Layout, (4) Extension Rationality}. For methodology, we utilize long chains of thought (CoT) and Group Relative Policy Optimization with Dynamic Proportional Accuracy reward, called DPA-GRPO, to enhance the image aesthetic reasoning ability of MLLMs. Our experimental results reveal that even state-of-the-art closed-source MLLMs, such as GPT-4o and Qwen-VL-Max, exhibit performance akin to random guessing in image aesthetic reasoning. In contrast, by leveraging the reinforcement learning approach, we are able to surpass the score of both large-scale models and leading closed-source models using a much smaller model. We hope our attempt on medical image screening will serve as a regular configuration in image aesthetic reasoning in the future.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、マルチモーダル理解や生成など、多くの領域にまたがる優れたアプリケーションである。
拡散モデル(DM)と統合MLLMの開発により、画像生成の性能は大幅に向上したが、画像スクリーニングの研究は稀であり、MLLMにおけるデータ不足と週間画像美的推論能力により、MLLMによる性能は不十分である。
本研究では,データと方法論の観点から,これらの問題に対処するための完全な解を提案する。
データには、1500以上のサンプルで総合的な医用画像スクリーニングデータセットを収集し、各サンプルは、医用画像と4つの生成画像と、複数項目の回答からなる。
このデータセットは, 外観変形, (2) 物理的照明と影の原理, (3) 配置レイアウト, (4) 拡張リズムの4つの側面で審美的推論能力を評価する。
手法として,DPA-GRPO(DPA-GRPO)と呼ばれる,長鎖の思考(CoT)とグループ相対政策最適化を用いて,MLLMのイメージ美的推論能力を向上する。
GPT-4oやQwen-VL-Maxのような最先端のクローズドソースMLLMでさえ、画像美的推論におけるランダムな推測に類似した性能を示した。
対照的に、強化学習アプローチを利用することで、より小さなモデルを用いて、大規模モデルのスコアを上回り、クローズドソースモデルをリードすることができる。
今後,医用画像スクリーニングの試みが,画像美的推論の定期的な構成となることを願っている。
関連論文リスト
- InSight: AI Mobile Screening Tool for Multiple Eye Disease Detection using Multimodal Fusion [0.0]
加齢に伴う黄斑変性、緑内障、糖尿病網膜症(DR)、糖尿病性黄斑浮腫、病理性ミオパチーは世界中の数億人に影響を与える。
InSightは、患者のメタデータと眼底画像を組み合わせて、一般的な5つの眼疾患の正確な診断を行うAIベースのアプリである。
論文 参考訳(メタデータ) (2025-07-16T23:00:10Z) - Regression is all you need for medical image translation [0.0]
医療画像翻訳(MIT)は、取得したデータから合成画像を生成することにより、既存のデータセットの強化と補完に役立つ。
本稿では,約2.5Dの拡散型MIT用フレームワークであるYODAを紹介する。
YODA は最先端の GAN 法や DM 法より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-04T09:57:10Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - A Unified Model for Compressed Sensing MRI Across Undersampling Patterns [69.19631302047569]
様々な計測アンサンプパターンと画像解像度に頑健な統合MRI再構成モデルを提案する。
我々のモデルは、拡散法よりも600$times$高速な推論で、最先端CNN(End-to-End VarNet)の4dBでSSIMを11%改善し、PSNRを4dB改善する。
論文 参考訳(メタデータ) (2024-10-05T20:03:57Z) - Scaling Efficient Masked Image Modeling on Large Remote Sensing Dataset [66.15872913664407]
本稿では、大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。
我々は、利用可能なRSデータセットを収集し、排他的、スライシング、復号化を通じてそれらを処理することで、OptoRS-13Mという高品質なデータセットをキュレートした。
実験により,OCR-13Mは分類,検出,セグメンテーション性能を著しく向上し,SelectiveMAEは2回以上のトレーニング効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Masked Image Modeling Advances 3D Medical Image Analysis [0.41674286453548476]
マスク付き画像モデリング(MIM)は、大量の未ラベルデータから学習する能力から注目されている。
本論文は,MIMが自然画像に加えて,3次元医用画像解析も進めることができることを示す。
論文 参考訳(メタデータ) (2022-04-25T15:16:08Z) - Interpretable and synergistic deep learning for visual explanation and
statistical estimations of segmentation of disease features from medical
images [0.0]
医学画像からの病因分類やセグメンテーションのための深層学習(DL)モデルは、無関係な自然界画像からの伝達学習(TL)を用いて、ますます訓練されている。
TL後バイナリセグメンテーションに広く用いられているDLアーキテクチャの比較,厳密な統計的解析,および比較について報告する。
TIIおよびLMIモデル、コード、10,000以上の医療画像の無料GitHubリポジトリと、この研究からのGrad-CAM出力は、高度な計算医学の出発点として利用できる。
論文 参考訳(メタデータ) (2020-11-11T14:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。