論文の概要: Anatomy-R1: Enhancing Anatomy Reasoning in Multimodal Large Language Models via Anatomical Similarity Curriculum and Group Diversity Augmentation
- arxiv url: http://arxiv.org/abs/2512.19512v2
- Date: Wed, 24 Dec 2025 05:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 13:34:31.947397
- Title: Anatomy-R1: Enhancing Anatomy Reasoning in Multimodal Large Language Models via Anatomical Similarity Curriculum and Group Diversity Augmentation
- Title(参考訳): Anatomy-R1: Anatomy Reasoning in Multimodal Large Language Models via Anatomical similarity Curriculum and Group Diversity Augmentation (特集:「多言語モデル」)
- Authors: Ziyang Song, Zelin Zang, Zuyao Chen, Xusheng Liang, Dong Yi, Jinlin Wu, Hongbin Liu, Jiebo Luo, Zhen. Lei,
- Abstract要約: MLLM(Multimodal Large Language Models)は自然画像推論において顕著な進歩を遂げている。
医用画像におけるその潜在性は、特に臨床解剖学的外科画像では未発見のままである。
これらの課題は、従来のSupervised Fine-Tuning戦略の有効性を制限する。
- 参考スコア(独自算出の注目度): 52.7583577508452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved impressive progress in natural image reasoning, yet their potential in medical imaging remains underexplored, especially in clinical anatomical surgical images. Anatomy understanding tasks demand precise understanding and clinically coherent answers, which are difficult to achieve due to the complexity of medical data and the scarcity of high-quality expert annotations. These challenges limit the effectiveness of conventional Supervised Fine-Tuning (SFT) strategies. While recent work has demonstrated that Group Relative Policy Optimization (GRPO) can enhance reasoning in MLLMs without relying on large amounts of data, we find two weaknesses that hinder GRPO's reasoning performance in anatomy recognition: 1) knowledge cannot be effectively shared between different anatomical structures, resulting in uneven information gain and preventing the model from converging, and 2) the model quickly converges to a single reasoning path, suppressing the exploration of diverse strategies. To overcome these challenges, we propose two novel methods. First, we implement a progressive learning strategy called Anatomical Similarity Curriculum Learning by controlling question difficulty via the similarity of answer choices, enabling the model to master complex problems incrementally. Second, we utilize question augmentation referred to as Group Diversity Question Augmentation to expand the model's search space for difficult queries, mitigating the tendency to produce uniform responses. Comprehensive experiments on the SGG-VQA and OmniMedVQA benchmarks show our method achieves a significant improvement across the two benchmarks, demonstrating its effectiveness in enhancing the medical reasoning capabilities of MLLMs. The code can be found in https://github.com/tomato996/Anatomy-R1
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、自然画像の推論において顕著な進歩を遂げているが、特に臨床解剖学的外科画像において、医療画像におけるその可能性はまだ探索されていない。
解剖学的理解タスクは、医療データの複雑さと高品質な専門家アノテーションの不足のために達成が難しい、正確な理解と臨床的に一貫性のある回答を必要とする。
これらの課題は、従来のSFT(Supervised Fine-Tuning)戦略の有効性を制限するものである。
最近の研究は、集団相対政策最適化(GRPO)が大量のデータに頼ることなくMLLMの推論を強化することを実証しているが、解剖学的認識におけるGRPOの推論性能を妨げる2つの弱点を見出した。
1)異なる解剖学的構造間で知識を効果的に共有することはできないため、不均一な情報を得ることができ、モデルが収束することを防ぐことができる。
2)モデルは急速に一つの推論経路に収束し,多様な戦略の探索を抑える。
これらの課題を克服するために、我々は2つの新しい方法を提案する。
まず,解答選択の類似性を通じて疑問の難易度を制御し,複雑な問題を段階的に習得することで,解剖学的類似性カリキュラム学習と呼ばれる漸進的な学習戦略を実装した。
第2に,グループ多様性質問拡張(Group Diversity Question Augmentation)と呼ばれる質問強化を利用して,難解な問合せのためのモデルの検索空間を拡大し,一様応答の傾向を緩和する。
SGG-VQA と OmniMedVQA ベンチマークの総合的な実験により,本手法は2つのベンチマークで有意な改善を達成し,MLLM の医学的推論能力の向上に有効であることが示された。
コードはhttps://github.com/tomato996/Anatomy-R1で確認できる。
関連論文リスト
- Bridging the Gap in Ophthalmic AI: MM-Retinal-Reason Dataset and OphthaReason Model toward Dynamic Multimodal Reasoning [15.73558614478585]
本稿では,眼科用マルチモーダルデータセットMM-Retinal-Reasonについて紹介する。
MM-Retinal-Reasonに基づいて,第1の眼科特異的多モード推論モデルであるOphthaReasonを提案する。
本モデルは,基礎的および複雑な推論タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-22T06:47:30Z) - Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning [25.707757721296627]
多モード画像理解は、診断精度を向上させる可能性から、広く関心を集めている。
既存の手法では推論能力が限られており、複雑な診断シナリオを扱う能力を妨げている。
本稿では,2つの相乗的分枝からなる二元的強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T16:03:03Z) - AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation [25.070570876478417]
胸部X線検査 (CXRs) は, 臨床現場で最も頻度の高い画像検査である。
大規模マルチモーダルモデル(LMM)の最近の進歩により、自動CXR解釈が可能となり、診断精度と効率が向上した。
現在の医療用LMM(MLMM)は,(1)地域レベルでの理解と相互作用が不十分なこと,(2)単一段階の推論による限定的な解釈可能性の2つの課題に直面している。
論文 参考訳(メタデータ) (2025-05-05T17:57:07Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning [27.827761004918106]
この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。
500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
論文 参考訳(メタデータ) (2025-01-11T07:10:23Z) - Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文 参考訳(メタデータ) (2024-07-31T04:32:43Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Patched Diffusion Models for Unsupervised Anomaly Detection in Brain MRI [55.78588835407174]
本稿では,正常脳解剖のパッチベース推定法として拡散モデルの生成タスクを再構築する手法を提案する。
腫瘍と多発性硬化症について検討し,既存のベースラインと比較して25.1%の改善がみられた。
論文 参考訳(メタデータ) (2023-03-07T09:40:22Z) - Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。
中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。
on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文 参考訳(メタデータ) (2022-01-07T07:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。