論文の概要: Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise
- arxiv url: http://arxiv.org/abs/2412.12583v3
- Date: Mon, 08 Sep 2025 13:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:02.828086
- Title: Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise
- Title(参考訳): クリニカルノート作成のためのプロセススーパービジョン・リワードモデル:ドメインエキスパートが指導するスケーラブルなアプローチ
- Authors: Hanyin Wang, Chufan Gao, Qiping Xu, Bolun Liu, Guleid Hussein, Hariprasad Korsapati, Mohamad El Labban, Kingsley Iheasirim, Mohamed Hassan, Gokhan Anil, Brian Bartlett, Jimeng Sun,
- Abstract要約: プロセス教師付き報酬モデル(PRM)は、数学やコーディングといった分野において、大きな言語モデル(LLM)の出力に対してステップバイステップの検証を提供する。
LLM作成臨床ノートに段階的な報酬信号を提供するために,PRMを訓練するための新しい枠組みを導入する。
- 参考スコア(独自算出の注目度): 14.052630186550628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process-supervised reward models (PRMs) excel at providing step-by-step verification for large language model (LLM) outputs in domains like mathematics and coding. However, their application to fields lacking ground-truth answers, such as clinical note generation, poses significant challenges. We introduce a novel framework for training PRMs to deliver step-level reward signals for LLM-generated clinical notes. By precisely defining meaningful "steps," injecting realistic "errors" informed by domain expertise, and leveraging LLMs to generate process supervision data at scale, we overcome previous limitations. Our PRM, built on LLaMA-3.1 8B, consistently outperforms proprietary reasoning and non-reasoning models, achieving state-of-the-art performance on two key evaluations: (1) distinguishing gold-standard from error-containing samples with 98.8% accuracy, and (2) selecting physician-preferred clinical notes with 56.2% accuracy. We investigate critical components for effective PRM training, including optimal loss functions and data selection strategies, and present a comprehensive physician reader study identifying predictors of downstream Best-of-N performance. Our study sheds light on unlocking the potential of PRMs for diverse generative tasks across domains.
- Abstract(参考訳): プロセス教師付き報酬モデル(PRM)は、数学やコーディングといった分野において、大きな言語モデル(LLM)の出力に対してステップバイステップの検証を提供する。
しかし, 臨床ノート作成など, 根本解答に欠ける分野への応用は, 重大な課題となっている。
LLM作成臨床ノートに段階的な報酬信号を提供するために,PRMを訓練するための新しい枠組みを導入する。
意味のある“ステップ”を正確に定義し、ドメインの専門知識から得られた現実的な“エラー”を注入し、LLMを活用して大規模にプロセス監視データを生成することで、これまでの制限を克服します。
LLaMA-3.1 8B をベースとした PRM はプロプライエタリな推論モデルと非推論モデルとを一貫して上回り,(1) エラーを含む検体から金標準を98.8% の精度で識別し,(2) 医師が推奨する臨床ノートを56.2% の精度で選択した。
我々は,最適な損失関数やデータ選択戦略を含む効果的なPRMトレーニングのための重要な要素について検討し,下流のベスト・オブ・Nパフォーマンスの予測因子を同定する総合的な医師読者研究を行った。
我々の研究は、ドメイン間の多様な生成タスクに対して、PRMの可能性を解き放つことに光を当てています。
関連論文リスト
- Accurate and Interpretable Postmenstrual Age Prediction via Multimodal Large Language Model [4.176819645111134]
命令チューニングとローランド適応(LoRA)を用いたパラメータ効率細調整(PEFT)戦略を提案する。
トレーニングと推論に異なるプロンプトを用いることで、MLLMはトレーニング中に回帰タスクを処理し、推論中に臨床的に関連する説明を生成することができる。
微調整されたモデルでは、95%の信頼区間が 0.78 から 1.52 週間の低い予測誤差を達成し、一方で、発達的特徴に基づく解釈可能な出力を生成する。
論文 参考訳(メタデータ) (2025-08-04T15:35:36Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Better Process Supervision with Bi-directional Rewarding Signals [41.929678717412266]
本稿では,過去の手順の正しさを評価するプロセス監視モデルであるBiRMを紹介し,今後の成功の可能性をモデル化する。
数学的推論のタスクについて広範な実験を行い、BiRMがLLM推論のステップをより正確に評価できることを実証した。
検索ベースの戦略では、より包括的なガイダンスを提供し、それぞれMATH-500でORMを5.0%、PRMを3.8%上回る。
論文 参考訳(メタデータ) (2025-03-06T17:03:17Z) - Fine-Tuning Open-Source Large Language Models to Improve Their Performance on Radiation Oncology Tasks: A Feasibility Study to Investigate Their Potential Clinical Applications in Radiation Oncology [23.986096971629777]
大規模言語モデルは、複雑なテキスト情報を処理する際、顕著な能力を示した。
本研究の目的は、ドメイン知識を持つ微調整LDMがタスクの性能を向上させるかどうかを検討することである。
片面のウィルコクソンサインランク試験は、統計的に結果を分析するために使用された。
論文 参考訳(メタデータ) (2025-01-28T20:37:32Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - AXIAL: Attention-based eXplainability for Interpretable Alzheimer's Localized Diagnosis using 2D CNNs on 3D MRI brain scans [43.06293430764841]
本研究では,3次元MRIを用いたアルツハイマー病診断の革新的手法を提案する。
提案手法では,2次元CNNがボリューム表現を抽出できるソフトアテンション機構を採用している。
ボクセルレベルの精度では、どの領域に注意が払われているかを同定し、これらの支配的な脳領域を同定する。
論文 参考訳(メタデータ) (2024-07-02T16:44:00Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - The Foundational Capabilities of Large Language Models in Predicting Postoperative Risks Using Clinical Notes [7.42249589630227]
各種微調整戦略を用いて,大言語モデル(LLM)の術後6つのリスク予測における性能について検討した。
事前訓練されたLLMは、AUROCが38.3%、AUPRCが33.2%で従来の単語の埋め込みよりも優れていた。
最高性能は統一された基礎モデルで達成され、AUROCは3.6%、AUPRCは2.6%改善された。
論文 参考訳(メタデータ) (2024-02-27T13:18:00Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Improving Large Language Models for Clinical Named Entity Recognition
via Prompt Engineering [20.534197056683695]
本研究は,臨床名付きエンティティ認識(NER)タスクにおける GPT-3.5 と GPT-4 の能力を定量化する。
我々は,ベースラインプロンプト,アノテーションガイドラインに基づくプロンプト,エラー解析に基づく命令,アノテーション付きサンプルを含むタスク固有のプロンプトフレームワークを開発した。
それぞれのプロンプトの有効性を評価し,BioClinicalBERTと比較した。
論文 参考訳(メタデータ) (2023-03-29T02:46:18Z) - AD-BERT: Using Pre-trained contextualized embeddings to Predict the
Progression from Mild Cognitive Impairment to Alzheimer's Disease [14.59521645987661]
本研究では,変換器(BERT)モデルから事前学習した双方向表現に基づくディープラーニングフレームワークを開発する。
軽度認知障害(MCI)からアルツハイマー病(AD)への進行リスクを非構造的臨床ノートを用いて予測した。
論文 参考訳(メタデータ) (2022-11-07T04:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。