論文の概要: Multidimensional Rubric-oriented Reward Model Learning via Geometric Projection Reference Constraints
- arxiv url: http://arxiv.org/abs/2511.16139v1
- Date: Thu, 20 Nov 2025 08:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.528049
- Title: Multidimensional Rubric-oriented Reward Model Learning via Geometric Projection Reference Constraints
- Title(参考訳): 幾何学的投影基準制約による多次元ルーブリック指向リワードモデル学習
- Authors: Yongnan Jin, Xurui Li, Feng Cao, Liucun Gao, Juanjuan Yao,
- Abstract要約: GPRC(Geometric Projection Reference Constraints)を用いたMR-RML(Multidimensional-oriented Reward Model Learning)を提案する。
MR-RMLは、医療標準を構造化された"Dimensions-Scenarios-Disciplines"マトリックスに統合し、データ生成とモデル最適化をガイドする。
62.7 (フルサブセット) と44.7 (ハードサブセット) のスコアを持つオープンソース LLM のSOTA を達成し、またクローズドソースモデルの大部分を上回っている。
- 参考スコア(独自算出の注目度): 4.79357178898034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of large language models (LLMs) into medical practice holds transformative potential, yet their real-world clinical utility remains limited by critical alignment challenges: (1) a disconnect between static evaluation benchmarks and dynamic clinical cognitive needs, (2) difficulties in adapting to evolving, multi-source medical standards, and (3) the inability of conventional reward models to capture nuanced, multi-dimensional medical quality criteria. To address these gaps, we propose MR-RML (Multidimensional Rubric-oriented Reward Model Learning) via GPRC (Geometric Projection Reference Constraints), a novel alignment framework that integrates medical standards into a structured "Dimensions-Scenarios-Disciplines" matrix to guide data generation and model optimization. MR-RML introduces three core innovations: (1) a "Dimensions-Scenarios-Disciplines" medical standard system that embeds domain standards into the full training pipeline; (2) an independent multi-dimensional reward model that decomposes evaluation criteria, shifting from real-time rubric-based scoring to internalized reward modeling for improved consistency and cost-efficiency; (3) geometric projection reference constraints that transform medical cognitive logic into mathematical regularization, aligning scoring gradients with clinical reasoning and enabling synthetic data-driven training. Through extensive evaluations on the authoritative medical benchmark Healthbench, our method yields substantial performance gains over the base LLM Qwen-32B (45% on the full subset and 85% on Hard subset, respectively). It achieves a SOTA among open-source LLMs with scores of 62.7 (full subset) and 44.7 (hard subset), while also outperforming the majority of closed-source models.
- Abstract(参考訳): 大規模言語モデル(LLM)の医療実践への統合は、変革的な可能性を持つが、その現実的な臨床ユーティリティは、(1)静的評価ベンチマークとダイナミックな臨床認知ニーズの切り離し、(2)進化するマルチソース医療標準への適応の困難、(3)ニュアンスド・マルチ次元医療品質基準を捉えるための従来の報酬モデルが不可能なことなど、重要な調整課題によって制限されている。
これらのギャップに対処するため,GPRC(Geometric Projection Reference Constraints)を用いたMR-RML(Multidimensional Rubric-oriented Reward Model Learning)を提案する。
MR-RMLは,(1)ドメイン標準をフルトレーニングパイプラインに組み込んだ「ディメンジョンズ・シニア・ディシプリエンス」医療標準システム,(2)評価基準を分解する独立した多次元報酬モデル,(2)一貫性とコスト効率を向上させるためのリアルタイムルービリック・スコアリングから内部化報酬モデリングへのシフト,(3)医学認知論理を数学的正則化に転換する幾何学的投影基準制約,(2)臨床推論との整合性,および合成データ駆動トレーニングの実現。
信頼できる医療ベンチマークHealthbenchの広範囲な評価を通じて,本手法はLLM Qwen-32B(全サブセットで45%,ハードサブセットで85%)に対して,大幅な性能向上をもたらす。
62.7 (フルサブセット) と44.7 (ハードサブセット) のスコアを持つオープンソース LLM のSOTA を達成し、またクローズドソースモデルの大部分を上回っている。
関連論文リスト
- vMFCoOp: Towards Equilibrium on a Unified Hyperspherical Manifold for Prompting Biomedical VLMs [7.668768558131368]
共有超球面マニフォールド上のvon Mises-Fisher(vMF)分布を逆推定するフレームワークであるvMFCoOpを提案する。
vMFCoOpは、14の医療データセット、12の医療画像モダリティ、13の解剖学的領域で一貫した改善を示し、精度、一般化、臨床応用性において最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-11-12T18:38:33Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - Baichuan-M2: Scaling Medical Capability with Large Verifier System [40.86227022086866]
静的解答検証を超越した,新しい動的検証フレームワークを提案する。
多段階強化学習戦略によって訓練された医療強化推論モデルBaichuan-M2を開発した。
HealthBenchでの評価では、Baichuan-M2は、他のすべてのオープンソースモデルや、最も高度なクローズドソースモデルよりも優れています。
論文 参考訳(メタデータ) (2025-09-02T11:23:35Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Rethinking model prototyping through the MedMNIST+ dataset collection [0.11999555634662634]
この作業では、MedMNIST+データセットコレクションの包括的なベンチマークを導入する。
我々は、一般的なCNN(Convolutional Neural Networks)とViT(Vision Transformer)アーキテクチャを、異なる医療データセットにわたって再評価する。
この結果から,計算効率のよいトレーニングスキームと最新の基礎モデルが,エンドツーエンドのトレーニングに有効な代替手段を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-24T10:19:25Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。