論文の概要: RPRO:Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning
- arxiv url: http://arxiv.org/abs/2509.00974v1
- Date: Sun, 31 Aug 2025 19:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.484087
- Title: RPRO:Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning
- Title(参考訳): RPRO-Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning
- Authors: Chia-Hsuan Hsu, Jun-En Ding, Hsin-Ling Hsu, Feng Liu, Fang-Ming Hung,
- Abstract要約: 医学的な質問応答には、ドメイン知識と論理的推論を統合する高度な推論が必要である。
そこで我々は,強化学習と嗜好駆動型推論改良を組み合わせた新しいフレームワークであるランキング優先強化最適化(RPRO)を提案する。
- 参考スコア(独自算出の注目度): 5.6813794530075725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical question answering requires advanced reasoning that integrates domain knowledge with logical inference. However, existing large language models (LLMs) often generate reasoning chains that lack factual accuracy and clinical reliability. We propose Ranked Preference Reinforcement Optimization (RPRO), a novel framework that uniquely combines reinforcement learning with preference-driven reasoning refinement to enhance clinical chain-of-thought (CoT) performance. RPRO differentiates itself from prior approaches by employing task-adaptive reasoning templates and a probabilistic evaluation mechanism that aligns outputs with established clinical workflows, while automatically identifying and correcting low-quality reasoning chains. Unlike traditional pairwise preference methods, RPRO introduces a groupwise ranking optimization based on the Bradley-Terry model and incorporates KL-divergence regularization for stable training. Experiments on PubMedQA and MedQA-USMLE show consistent improvements over strong baselines. Remarkably, our 1.1B parameter model outperforms much larger 7B-13B models, including medical-specialized variants. These findings demonstrate that combining preference optimization with quality-driven refinement offers a scalable and effective approach to building more reliable, clinically grounded medical LLMs.
- Abstract(参考訳): 医学的な質問応答には、ドメイン知識と論理的推論を統合する高度な推論が必要である。
しかし、既存の大規模言語モデル(LLM)は、事実の正確性や臨床的信頼性に欠ける推論連鎖を生成することが多い。
臨床チェーン・オブ・シント(CoT)の性能を高めるために,強化学習と嗜好的推論改善を一意に組み合わせた新しいフレームワークであるランキング優先強化最適化(RPRO)を提案する。
RPROは、タスク適応推論テンプレートと、既存の臨床ワークフローとアウトプットを整合させる確率的評価メカニズムを用いて、品質の低い推論チェーンを自動的に識別し修正することで、従来のアプローチと差別化している。
従来のペアワイズ選好法とは異なり、RPROはブラッドリー・テリーモデルに基づくグループワイズランキング最適化を導入し、安定トレーニングのためにKL偏差正規化を取り入れている。
PubMedQAとMedQA-USMLEの実験では、強いベースラインよりも一貫した改善が見られた。
注目すべきは、我々の1.1Bパラメータモデルは、医療特化モデルを含む、はるかに大きな7B-13Bモデルより優れています。
これらの結果から, 選好最適化と品質駆動リファインメントの併用は, より信頼性が高く, 臨床に根ざした医療用LLMの構築に, スケーラブルで効果的なアプローチをもたらすことが示唆された。
関連論文リスト
- HEAL: A Hypothesis-Based Preference-Aware Analysis Framework [32.45006553398745]
本稿では,textbfHypothesis を用いた PrtextbfEference-aware textbfAnatextbfLysis Framework (HEAL) を提案する。
これは、仮説空間内の再ランクプロセスとして、選好アライメントを定式化する。
このフレームワークには、順序整合性を評価するためのランキング精度と、連続的なアライメントを評価するための優先強度相関の2つの補完的な指標が含まれている。
論文 参考訳(メタデータ) (2025-08-27T14:30:08Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - FedCoT: Communication-Efficient Federated Reasoning Enhancement for Large Language Models [14.173704018103454]
FedCoTは、フェデレートされた設定における推論を強化するために特別に設計された新しいフレームワークである。
推論精度と堅牢性を向上し、医療応用に欠かせない価値ある解釈性を提供する。
論文 参考訳(メタデータ) (2025-08-07T06:50:15Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - RACE-Align: Retrieval-Augmented and Chain-of-Thought Enhanced Preference Alignment for Large Language Models [11.107932406541865]
本稿では,従来の選好アライメント手法の限界に対処する新しいフレームワークであるRAS-Alignを紹介する。
RACE-Alignは、外部知識サポートと明示的なChain-of-Thought(CoT)推論を組み込んだバイナリ優先データセットを体系的に構築する。
Qwen3-1.7Bをベースモデルとして用いた伝統的な中国医学(TCM)における実験的検証は、RAS-Alignが元のベースモデルよりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-06-03T10:36:38Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization [19.673388630963807]
統一統一性駆動型CBEフレームワークUniCBEを提案する。
AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearsonと地上の真実との相関は0.995を超えている。
新しいモデルが継続的に導入されるシナリオでは、UniCBEは評価コストの50%以上を節約できる。
論文 参考訳(メタデータ) (2025-02-17T05:28:12Z) - Beyond Self-Consistency: Ensemble Reasoning Boosts Consistency and Accuracy of LLMs in Cancer Staging [0.33554367023486936]
がんのステージング状態は臨床報告で確認できるが、抽出するには自然言語処理が必要である。
臨床指向の大規模言語モデルの進歩により、アルゴリズムの訓練に多大な努力を払わずに、そのような状態を抽出することが期待されている。
本研究では,モデル生成の一貫性向上を目的としたアンサンブル推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T19:34:35Z) - Providing reliability in Recommender Systems through Bernoulli Matrix
Factorization [63.732639864601914]
本稿では,予測値と信頼性値の両方を提供するためにBernoulli Matrix Factorization (BeMF)を提案する。
BeMFはメモリベースのフィルタリングではなく、モデルベースの協調フィルタリングに作用する。
予測の信頼性が高ければ高いほど、それが間違っているという責任は少なくなる。
論文 参考訳(メタデータ) (2020-06-05T14:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。