論文の概要: Multidimensional Rubric-oriented Reward Model Learning via Geometric Projection Reference Constraints
- arxiv url: http://arxiv.org/abs/2511.16139v2
- Date: Sun, 23 Nov 2025 04:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 13:28:09.689458
- Title: Multidimensional Rubric-oriented Reward Model Learning via Geometric Projection Reference Constraints
- Title(参考訳): 幾何学的投影基準制約による多次元ルーブリック指向リワードモデル学習
- Authors: Yongnan Jin, Xurui Li, Feng Cao, Liucun Gao, Juanjuan Yao,
- Abstract要約: GPRC(Geometric Projection Reference Constraints)を用いたMR-RML(Multidimensional-oriented Reward Model Learning)を導入する。
提案手法は,(1)訓練パイプライン全体にドメイン固有のガイドラインを組み込んだ医療標準システム,(2)評価基準を分解する独立した多次元報酬モデル,(3)臨床認知論理を数学的正則化に変換する予測基準制約,の3つの重要なイノベーションを紹介する。
本手法はQwen-32Bモデルの性能を大幅に向上させ,完全部分集合では45%,ハード部分集合では85%向上させた。
- 参考スコア(独自算出の注目度): 4.79357178898034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of large language models (LLMs) into medical practice offers transformative potential, yet their real-world clinical applicability remains constrained by critical alignment issues: (1) a misalignment between static evaluation benchmarks and the dynamic cognitive demands of clinical practice, (2) challenges in adapting to continuously evolving, multi-source medical standards, and (3) the limited capacity of conventional reward models to reflect nuanced, multi-dimensional medical quality criteria. To overcome these limitations, we introduce MR-RML (Multidimensional Rubric-oriented Reward Model Learning) with GPRC (Geometric Projection Reference Constraints)-a novel alignment framework that structured medical standards into a multi-perspective matrix to guide both data generation and model optimization. Our approach introduces three key innovations: (1) a medical standard system that embeds domain-specific guidelines throughout the training pipeline; (2) an independent multi-dimensional reward model that decomposes evaluation criteria, transitioning from rule-based or LLM-based scoring to internalized reward modeling for better evaluation performance; and (3) geometric projection reference constraints that translate clinical cognitive logic into mathematical regularization, aligning scoring gradients with clinical reasoning and facilitating training with synthetically generated data. Extensive evaluations on the authoritative medical benchmark Healthbench demonstrate that our method significantly boosts the performance of the base Qwen-32B model, with improvements of 45% on the full subset and 85% on the hard subset. It achieves state-of-the-art results among open-source LLMs, scoring 62.7 (full) and 44.7 (hard), while also surpassing the majority of closed-source models.
- Abstract(参考訳): 大規模言語モデル(LLM)の医療実践への統合は、変革的な可能性を提供するが、その実際の臨床応用性は、(1)静的評価ベンチマークと臨床実践の動的認知的要求との相違、(2)継続的に進化するマルチソース医療標準への適応の課題、(3)ニュアンスで多次元の医療品質基準を反映する従来の報酬モデルの限られた能力、といった重要な調整課題によって制約される。
これらの制約を克服するために,GPRC(Geometric Projection Reference Constraints)を用いたMR-RML(Multidimensional Rubric-oriented Reward Model Learning)を導入する。
本手法では,(1)訓練パイプライン全体にドメイン固有のガイドラインを組み込んだ医療標準システム,(2) 評価基準を分解する独立した多次元報酬モデル,(2) ルールベースあるいはLSMに基づくスコアリングから,より優れた評価性能を得るために内部的な報酬モデルへ移行する,(3) 臨床認知論理を数学的正則化に変換する幾何学的投射基準制約,(2) 臨床推論とスコアリング勾配の整合化,および合成的データによるトレーニングの促進,の3点を紹介する。
本手法はQwen-32Bモデルの性能を大幅に向上させ,完全サブセットでは45%,ハードサブセットでは85%向上した。
62.7 (フル) と44.7 (ハード) と評価され、またクローズドソースモデルの大半を上回っている。
関連論文リスト
- vMFCoOp: Towards Equilibrium on a Unified Hyperspherical Manifold for Prompting Biomedical VLMs [7.668768558131368]
共有超球面マニフォールド上のvon Mises-Fisher(vMF)分布を逆推定するフレームワークであるvMFCoOpを提案する。
vMFCoOpは、14の医療データセット、12の医療画像モダリティ、13の解剖学的領域で一貫した改善を示し、精度、一般化、臨床応用性において最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-11-12T18:38:33Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - Baichuan-M2: Scaling Medical Capability with Large Verifier System [40.86227022086866]
静的解答検証を超越した,新しい動的検証フレームワークを提案する。
多段階強化学習戦略によって訓練された医療強化推論モデルBaichuan-M2を開発した。
HealthBenchでの評価では、Baichuan-M2は、他のすべてのオープンソースモデルや、最も高度なクローズドソースモデルよりも優れています。
論文 参考訳(メタデータ) (2025-09-02T11:23:35Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Rethinking model prototyping through the MedMNIST+ dataset collection [0.11999555634662634]
この作業では、MedMNIST+データセットコレクションの包括的なベンチマークを導入する。
我々は、一般的なCNN(Convolutional Neural Networks)とViT(Vision Transformer)アーキテクチャを、異なる医療データセットにわたって再評価する。
この結果から,計算効率のよいトレーニングスキームと最新の基礎モデルが,エンドツーエンドのトレーニングに有効な代替手段を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-24T10:19:25Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。