論文の概要: Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise
- arxiv url: http://arxiv.org/abs/2412.12583v2
- Date: Sat, 15 Feb 2025 16:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:05:09.219727
- Title: Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise
- Title(参考訳): クリニカルノート作成のためのプロセススーパービジョン・リワードモデル:ドメインエキスパートが指導するスケーラブルなアプローチ
- Authors: Hanyin Wang, Chufan Gao, Qiping Xu, Bolun Liu, Guleid Hussein, Hariprasad Korsapati, Mohamad El Labban, Kingsley Iheasirim, Mohamed Hassan, Gokhan Anil, Brian Bartlett, Jimeng Sun,
- Abstract要約: 大規模言語モデル(LLM)が生み出す臨床ノートに段階的な報酬信号を提供するために、PRMを訓練する。
提案手法は,LLaMA-3.18Bインストラクタモデルを用いて学習し,ジェミニプロ1.5とバニラ結果監督報酬モデル(ORM)を2つの重要な評価で比較した。
- 参考スコア(独自算出の注目度): 19.71388941192149
- License:
- Abstract: Process-supervised reward models (PRMs), which verify large language model (LLM) outputs step-by-step, have achieved significant success in mathematical and coding problems. However, their application to other domains remains largely unexplored. In this work, we train a PRM to provide step-level reward signals for clinical notes generated by LLMs from patient-doctor dialogues. Guided by real-world clinician expertise, we carefully designed step definitions for clinical notes and utilized Gemini-Pro 1.5 to automatically generate process supervision data at scale. Our proposed PRM, trained on the LLaMA-3.1 8B instruct model, outperformed both Gemini-Pro 1.5 and the vanilla outcome-supervised reward model (ORM) in two key evaluations: (1) selecting gold-reference samples from error-containing ones, achieving 98.8% accuracy (versus 70.0% for the vanilla ORM and 93.8% for Gemini-Pro 1.5), and (2) selecting physician-preferred notes, achieving 56.2% accuracy (compared to 37.5% for the vanilla ORM and 50.0% for Gemini-Pro 1.5). Additionally, we conducted ablation studies to determine optimal loss functions and data selection strategies, along with physician reader studies to explore predictors of downstream Best-of-N performance. Our promising results suggest the potential of PRMs to extend beyond the clinical domain, offering a scalable and effective solution for diverse generative tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の出力を段階的に検証するプロセス教師付き報酬モデル(PRM)は、数学的およびコーディング問題において大きな成功を収めている。
しかし、他の領域への適用はほとんど未調査のままである。
本研究では,患者と医師の対話からLLMが生成した臨床メモに対して,段階的な報酬信号を提供するためにPRMを訓練する。
実世界の臨床専門医に指導された我々は、臨床ノートのステップ定義を慎重に設計し、Gemini-Pro 1.5を使用して、大規模にプロセス監視データを自動的に生成した。
提案手法はLLaMA-3.18Bインストラクタモデルで訓練され,(1) 誤りを含むものから金参照サンプルを選択し,98.8% の精度,93.8% の精度,(2) 56.2% の精度(バニラ ORM は37.5%,gemini-Pro 1.5 は50.0%)という2つの重要な評価において,ジェミニプロ 1.5 とバニラ結果監督報酬モデル(バニラ ORM)の両方に優れていた。
さらに、最適な損失関数とデータ選択戦略を決定するためのアブレーション研究と、下流のBest-of-Nパフォーマンスを予測するための医師読者研究を行った。
我々の有望な結果は、PRMsが臨床領域を超えて拡張し、多様な生成タスクに対してスケーラブルで効果的なソリューションを提供する可能性を示唆している。
関連論文リスト
- LLMs for Drug-Drug Interaction Prediction: A Comprehensive Comparison [3.2627279988912194]
大規模言語モデル (LLM) は様々な領域に革命をもたらしたが、薬学研究におけるその可能性はほとんど解明されていない。
本研究は薬物と薬物の相互作用(DDI)を予測するLLMの機能について徹底的に研究する。
プロプライエタリモデル(GPT-4, Claude, Gemini)やオープンソースモデル(1.5Bから72Bパラメータ)を含む18種類のLCMを評価した。
微調整のLLMは優れた性能を示し、Phi-3.5 2.7BはDDI予測において0.978の感度を達成し、バランスの取れたデータセットでは0.919の精度を実現した。
論文 参考訳(メタデータ) (2025-02-09T09:58:12Z) - Fine-Tuning Open-Source Large Language Models to Improve Their Performance on Radiation Oncology Tasks: A Feasibility Study to Investigate Their Potential Clinical Applications in Radiation Oncology [23.986096971629777]
大規模言語モデルは、複雑なテキスト情報を処理する際、顕著な能力を示した。
本研究の目的は、ドメイン知識を持つ微調整LDMがタスクの性能を向上させるかどうかを検討することである。
片面のウィルコクソンサインランク試験は、統計的に結果を分析するために使用された。
論文 参考訳(メタデータ) (2025-01-28T20:37:32Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - AXIAL: Attention-based eXplainability for Interpretable Alzheimer's Localized Diagnosis using 2D CNNs on 3D MRI brain scans [43.06293430764841]
本研究では,3次元MRIを用いたアルツハイマー病診断の革新的手法を提案する。
提案手法では,2次元CNNがボリューム表現を抽出できるソフトアテンション機構を採用している。
ボクセルレベルの精度では、どの領域に注意が払われているかを同定し、これらの支配的な脳領域を同定する。
論文 参考訳(メタデータ) (2024-07-02T16:44:00Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision [40.984680166762345]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-05T00:57:51Z) - Improving Large Language Models for Clinical Named Entity Recognition
via Prompt Engineering [20.534197056683695]
本研究は,臨床名付きエンティティ認識(NER)タスクにおける GPT-3.5 と GPT-4 の能力を定量化する。
我々は,ベースラインプロンプト,アノテーションガイドラインに基づくプロンプト,エラー解析に基づく命令,アノテーション付きサンプルを含むタスク固有のプロンプトフレームワークを開発した。
それぞれのプロンプトの有効性を評価し,BioClinicalBERTと比較した。
論文 参考訳(メタデータ) (2023-03-29T02:46:18Z) - AD-BERT: Using Pre-trained contextualized embeddings to Predict the
Progression from Mild Cognitive Impairment to Alzheimer's Disease [14.59521645987661]
本研究では,変換器(BERT)モデルから事前学習した双方向表現に基づくディープラーニングフレームワークを開発する。
軽度認知障害(MCI)からアルツハイマー病(AD)への進行リスクを非構造的臨床ノートを用いて予測した。
論文 参考訳(メタデータ) (2022-11-07T04:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。