論文の概要: GRPO++: Enhancing Dermatological Reasoning under Low Resource Settings
- arxiv url: http://arxiv.org/abs/2510.01236v1
- Date: Tue, 23 Sep 2025 18:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.738293
- Title: GRPO++: Enhancing Dermatological Reasoning under Low Resource Settings
- Title(参考訳): GRPO++:低リソース環境下での皮膚学推論の強化
- Authors: Ismam Nur Swapnil, Aranya Saha, Tanvir Ahmed Khan, Mohammad Ariful Haque,
- Abstract要約: 本稿では,皮膚科医の診断過程をエミュレートするために,多段階的,資源効率の高い手法によって開発されたVLMであるDermIQ-VLMを紹介する。
私たちの主な貢献は、GRPO++と呼ばれるグループ相対政策最適化(GRPO)の修正版です。
本手法が標準的な微調整法よりも顕著な性能向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.5310914438304387
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Models (VLMs) show promise in medical image analysis, yet their capacity for structured reasoning in complex domains like dermatology is often limited by data scarcity and the high computational cost of advanced training techniques. To address these challenges, we introduce DermIQ-VLM, a VLM developed through a multi-stage, resource-efficient methodology designed to emulate a dermatologist's diagnostic process. Our primary contribution is a modified version of Grouped Relative Policy Optimization (GRPO), called GRPO++, which stabilizes the powerful but data-intensive GRPO framework. Our proposed training pipeline first employs GRPO++ for reasoning-oriented disease recognition, followed by supervised fine-tuning for conversational ability. To mitigate factual errors introduced during this step, we then align the model using Direct Preference Optimization (DPO), leveraging a Knowledge Graph-based system as a scalable proxy for expert preference. A preliminary evaluation on a curated dermatological dataset demonstrates that our proposed methodology yields notable performance gains over standard fine-tuning approaches. These findings validate the potential of our pipeline as a feasible pathway for developing specialized, reliable VLMs in resource-constrained environments.
- Abstract(参考訳): VLM(Vision-Language Models)は、医用画像解析において有望であるが、皮膚科のような複雑な領域における構造的推論の能力は、データ不足と高度なトレーニング技術の高い計算コストによって制限されることが多い。
これらの課題に対処するために、皮膚科医の診断プロセスをエミュレートするために設計された多段階の資源効率方法論を用いて開発されたVLMであるDermIQ-VLMを紹介する。
主要なコントリビューションは、GRPO++(Grouped Relative Policy Optimization)と呼ばれる、強力だがデータ集約的なGRPOフレームワークを安定化する、GRPO(Grouped Relative Policy Optimization)の修正版です。
提案するトレーニングパイプラインはまず,推論指向の疾患認識にGRPO++を使用し,次いで対話能力のための教師付き微調整を行う。
このステップで導入された事実的エラーを軽減するために、我々は、知識グラフベースのシステムを専門家の好みにスケーラブルなプロキシとして活用し、直接優先度最適化(DPO)を用いてモデルを整列する。
本手法が標準的な微調整法よりも顕著な性能向上をもたらすことを示す。
これらの知見は, 資源制約環境下での, 信頼性の高いVLMの開発に有効な経路として, パイプラインの可能性を検証するものである。
関連論文リスト
- A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Large Language Models are Powerful Electronic Health Record Encoders [4.520903886487343]
汎用大規模言語モデル(LLM)は、下流臨床予測タスクの表現にERHデータをエンコードするために用いられる。
LLMをベースとした埋め込みは、特殊EHRファンデーションモデルの性能にマッチしたり、超えたりできることを示す。
検査されたLSMモデルのうちの1つは、疾患発症、入院、死亡予測において優れた性能を達成する。
論文 参考訳(メタデータ) (2025-02-24T18:30:36Z) - Rethinking model prototyping through the MedMNIST+ dataset collection [0.11999555634662634]
この作業では、MedMNIST+データセットコレクションの包括的なベンチマークを導入する。
我々は、一般的なCNN(Convolutional Neural Networks)とViT(Vision Transformer)アーキテクチャを、異なる医療データセットにわたって再評価する。
この結果から,計算効率のよいトレーニングスキームと最新の基礎モデルが,エンドツーエンドのトレーニングに有効な代替手段を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-24T10:19:25Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。