論文の概要: Image Aesthetic Reasoning: A New Benchmark for Medical Image Screening with MLLMs
- arxiv url: http://arxiv.org/abs/2505.23265v1
- Date: Thu, 29 May 2025 09:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.778763
- Title: Image Aesthetic Reasoning: A New Benchmark for Medical Image Screening with MLLMs
- Title(参考訳): Image Aesthetic Reasoning: MLLMによる医用画像のスクリーニングのための新しいベンチマーク
- Authors: Zheng Sun, Yi Wei, Long Yu,
- Abstract要約: 画像スクリーニングの研究はまれであり、MLLMによる性能はデータ不足のため不満足である。
本研究では,データと方法論の観点から,これらの問題に対処するための完全な解を提案する。
- 参考スコア(独自算出の注目度): 20.222987035141646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are of great application across many domains, such as multimodal understanding and generation. With the development of diffusion models (DM) and unified MLLMs, the performance of image generation has been significantly improved, however, the study of image screening is rare and its performance with MLLMs is unsatisfactory due to the lack of data and the week image aesthetic reasoning ability in MLLMs. In this work, we propose a complete solution to address these problems in terms of data and methodology. For data, we collect a comprehensive medical image screening dataset with 1500+ samples, each sample consists of a medical image, four generated images, and a multiple-choice answer. The dataset evaluates the aesthetic reasoning ability under four aspects: \textit{(1) Appearance Deformation, (2) Principles of Physical Lighting and Shadow, (3) Placement Layout, (4) Extension Rationality}. For methodology, we utilize long chains of thought (CoT) and Group Relative Policy Optimization with Dynamic Proportional Accuracy reward, called DPA-GRPO, to enhance the image aesthetic reasoning ability of MLLMs. Our experimental results reveal that even state-of-the-art closed-source MLLMs, such as GPT-4o and Qwen-VL-Max, exhibit performance akin to random guessing in image aesthetic reasoning. In contrast, by leveraging the reinforcement learning approach, we are able to surpass the score of both large-scale models and leading closed-source models using a much smaller model. We hope our attempt on medical image screening will serve as a regular configuration in image aesthetic reasoning in the future.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、マルチモーダル理解や生成など、多くの領域にまたがる優れたアプリケーションである。
拡散モデル(DM)と統合MLLMの開発により、画像生成の性能は大幅に向上したが、画像スクリーニングの研究は稀であり、MLLMにおけるデータ不足と週間画像美的推論能力により、MLLMによる性能は不十分である。
本研究では,データと方法論の観点から,これらの問題に対処するための完全な解を提案する。
データには、1500以上のサンプルで総合的な医用画像スクリーニングデータセットを収集し、各サンプルは、医用画像と4つの生成画像と、複数項目の回答からなる。
このデータセットは, 外観変形, (2) 物理的照明と影の原理, (3) 配置レイアウト, (4) 拡張リズムの4つの側面で審美的推論能力を評価する。
手法として,DPA-GRPO(DPA-GRPO)と呼ばれる,長鎖の思考(CoT)とグループ相対政策最適化を用いて,MLLMのイメージ美的推論能力を向上する。
GPT-4oやQwen-VL-Maxのような最先端のクローズドソースMLLMでさえ、画像美的推論におけるランダムな推測に類似した性能を示した。
対照的に、強化学習アプローチを利用することで、より小さなモデルを用いて、大規模モデルのスコアを上回り、クローズドソースモデルをリードすることができる。
今後,医用画像スクリーニングの試みが,画像美的推論の定期的な構成となることを願っている。
関連論文リスト
- Regression is all you need for medical image translation [0.0]
医療画像翻訳(MIT)は、取得したデータから合成画像を生成することにより、既存のデータセットの強化と補完に役立つ。
本稿では,約2.5Dの拡散型MIT用フレームワークであるYODAを紹介する。
YODA は最先端の GAN 法や DM 法より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-04T09:57:10Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Scaling Efficient Masked Image Modeling on Large Remote Sensing Dataset [66.15872913664407]
本稿では、大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。
我々は、利用可能なRSデータセットを収集し、排他的、スライシング、復号化を通じてそれらを処理することで、OptoRS-13Mという高品質なデータセットをキュレートした。
実験により,OCR-13Mは分類,検出,セグメンテーション性能を著しく向上し,SelectiveMAEは2回以上のトレーニング効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Masked Image Modeling Advances 3D Medical Image Analysis [0.41674286453548476]
マスク付き画像モデリング(MIM)は、大量の未ラベルデータから学習する能力から注目されている。
本論文は,MIMが自然画像に加えて,3次元医用画像解析も進めることができることを示す。
論文 参考訳(メタデータ) (2022-04-25T15:16:08Z) - Interpretable and synergistic deep learning for visual explanation and
statistical estimations of segmentation of disease features from medical
images [0.0]
医学画像からの病因分類やセグメンテーションのための深層学習(DL)モデルは、無関係な自然界画像からの伝達学習(TL)を用いて、ますます訓練されている。
TL後バイナリセグメンテーションに広く用いられているDLアーキテクチャの比較,厳密な統計的解析,および比較について報告する。
TIIおよびLMIモデル、コード、10,000以上の医療画像の無料GitHubリポジトリと、この研究からのGrad-CAM出力は、高度な計算医学の出発点として利用できる。
論文 参考訳(メタデータ) (2020-11-11T14:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。