論文の概要: Fundus-R1: Training a Fundus-Reading MLLM with Knowledge-Aware Reasoning on Public Data
- arxiv url: http://arxiv.org/abs/2604.08322v1
- Date: Thu, 09 Apr 2026 14:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.974128
- Title: Fundus-R1: Training a Fundus-Reading MLLM with Knowledge-Aware Reasoning on Public Data
- Title(参考訳): Fundus-R1: 公開データに基づく知識認識型MLLMの学習
- Authors: Yuchuan Deng, Qijie Wei, Kaiheng Qian, Jiazhen Liu, Zijie Xin, Bangxiang Lan, Jingyu Liu, Jianfeng Dong, Xirong Li,
- Abstract要約: 眼底画像検査は網膜異常や疾患の早期発見に不可欠である。
タスクに対処するための新しいアプローチは、ジェネリックマルチモーダル大言語モデル(MLLM)のポストトレーニングである。
我々は,Fundus-R1と呼ぶMLLMを,公開データセットのみを用いて学習する新しい試みを行っている。
- 参考スコア(独自算出の注目度): 20.67633352608436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fundus imaging such as CFP, OCT and UWF is crucial for the early detection of retinal anomalies and diseases. Fundus image understanding, due to its knowledge-intensive nature, poses a challenging vision-language task. An emerging approach to addressing the task is to post-train a generic multimodal large language model (MLLM), either by supervised finetuning (SFT) or by reinforcement learning with verifiable rewards (RLVR), on a considerable amount of in-house samples paired with high-quality clinical reports. However, these valuable samples are not publicly accessible, which not only hinders reproducibility but also practically limits research to few players. To overcome the barrier, we make a novel attempt to train a reasoning-enhanced fundus-reading MLLM, which we term Fundus-R1, using exclusively public datasets, wherein over 94\% of the data are annotated with only image-level labels. Our technical contributions are two-fold. First, we propose a RAG-based method for composing image-specific, knowledge-aware reasoning traces. Such auto-generated traces link visual findings identified by a generic MLLM to the image labels in terms of ophthalmic knowledge. Second, we enhance RLVR with a process reward that encourages self-consistency of the generated reasoning trace in each rollout. Extensive experiments on three fundus-reading benchmarks, i.e., FunBench, Omni-Fundus and GMAI-Fundus, show that Fundus-R1 clearly outperforms multiple baselines, including its generic counterpart (Qwen2.5-VL) and a stronger edition post-trained without using the generated traces. This work paves the way for training powerful fundus-reading MLLMs with publicly available data.
- Abstract(参考訳): CFP, OCT, UWFなどの基礎画像は網膜異常や疾患の早期発見に不可欠である。
知識集約的な性質から、ファンドス画像理解は、視覚言語に挑戦する課題となる。
この課題に対処するための新たなアプローチは、高品質な臨床報告と組み合わせた大量の社内サンプルに基づいて、教師付き微調整(SFT)または検証可能な報酬付き強化学習(RLVR)によって、ジェネリックマルチモーダル大言語モデル(MLLM)をポストトレーニングすることである。
しかし、これらの貴重なサンプルは一般に公開されておらず、再現性を妨げているだけでなく、事実上研究を少数のプレイヤーに限定している。
この障壁を克服するために、我々はFundus-R1と呼ばれる推論強化された基礎読影MLLMを、公開データセットのみを使用してトレーニングする新しい試みを行い、94 %以上のデータが画像レベルのラベルで注釈付けされている。
私たちの技術貢献は2倍です。
まず、画像固有の知識を考慮した推論トレースを構成するためのRAGベースの手法を提案する。
このような自動生成トレースは、ジェネリックMLLMによって同定された視覚的発見を眼科的知識の観点から画像ラベルにリンクする。
第2に、ロールアウト毎に生成された推論トレースの自己整合性を促進するプロセス報酬により、RLVRを強化します。
FunBench、Omni-Fundus、GMAI-Fundusの3つのベンチマークの大規模な実験は、Fundus-R1が生成したトレースを使わずにトレーニング後のより強力なバージョン(Qwen2.5-VL)を含む複数のベースラインを明らかに上回っていることを示している。
この研究は、強力なファンドリードMLLMを公開データでトレーニングする方法を開拓する。
関連論文リスト
- Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models [43.46006663176283]
我々は,ラベル付きデータの追加を必要とせずに,ラベルなし強化学習を利用してモデル性能を向上させる医療MLLMのためのフレームワークであるMed-Evoを提案する。
我々のフレームワークは、2つの重要なイノベーションを紹介している: 1)$ Feature-driven Pseudo Labeling (FPL)は、すべての不均一な候補応答からセマンティックセントロイドを識別し、各ロールアウトで擬似ラベルを選択する。
論文 参考訳(メタデータ) (2026-03-08T03:38:24Z) - Knowledge Elicitation with Large Language Models for Interpretable Cancer Stage Identification from Pathology Reports [2.5829043503611318]
本稿では,大きな言語モデルによるがんステージングのためのドメイン固有のルールの推論と適用を可能にすることにより,制限を克服する2つの知識抽出手法を提案する。
1つ目は、KEwLTM(Knowledge Elicitation with Long-Term Memory)で、未発表の病理報告から直接ステージングルールを導出するために反復的なプロンプト戦略を使用している。
第2のKEwRAG(Knowledge Elicitation with Retrieval-Augmented Generation)では、ルールを関連するガイドラインから1ステップで事前抽出し、適用することで、解釈可能性を高め、繰り返しのリカバリオーバーヘッドを回避するという、RAGのバリエーションを採用している。
論文 参考訳(メタデータ) (2025-11-02T19:00:40Z) - Rethinking Facial Expression Recognition in the Era of Multimodal Large Language Models: Benchmark, Datasets, and Beyond [116.65158801881984]
MLLMの表情推論能力の向上を目的とした後学習戦略を提案する。
We developed a unified and interpretable FER foundation model called UniFER-7B。
論文 参考訳(メタデータ) (2025-11-01T03:53:00Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-09T20:06:45Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Leveraging Regular Fundus Images for Training UWF Fundus Diagnosis
Models via Adversarial Learning and Pseudo-Labeling [29.009663623719064]
オプトスカメラによる超広視野(UWF)200度の基礎イメージングが徐々に導入されている。
正規の眼底画像は、大量の高品質な注釈付きデータを含んでいる。
ドメインギャップのため、UWFファウンス画像を認識するために、通常のファウンス画像によって訓練されたモデルは、性能が良くない。
本稿では,通常のUWFファウンダスとUWFファウンダスとのギャップを埋めるために,修正サイクル生成対逆ネットワーク(CycleGAN)モデルを提案する。
論文 参考訳(メタデータ) (2020-11-27T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。