論文の概要: Process-Supervised Reward Models for Clinical Note Generation: A Scalable Approach Guided by Domain Expertise
- arxiv url: http://arxiv.org/abs/2412.12583v1
- Date: Tue, 17 Dec 2024 06:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:39.600414
- Title: Process-Supervised Reward Models for Clinical Note Generation: A Scalable Approach Guided by Domain Expertise
- Title(参考訳): クリニカルノート作成のためのプロセススーパービジョン・リワードモデル:ドメインエキスパートが指導するスケーラブルなアプローチ
- Authors: Hanyin Wang, Qiping Xu, Bolun Liu, Guleid Hussein, Hariprasad Korsapati, Mohamad El Labban, Kingsley Iheasirim, Mohamed Hassan, Gokhan Anil, Brian Bartlett, Jimeng Sun,
- Abstract要約: 大規模言語モデル(LLM)が生み出す臨床ノートに段階的な報酬信号を提供するために、PRMを訓練する。
提案手法は,LLaMA-3.18Bインストラクタモデルを用いて学習し,Gemini-Pro 1.5やORMよりも優れた性能を示した。
我々の有望な結果は、PRMsが臨床領域を超えて拡張し、多様な生成タスクに対してスケーラブルで効果的なソリューションを提供する可能性を示唆している。
- 参考スコア(独自算出の注目度): 19.507116437473375
- License:
- Abstract: Process-supervised reward models (PRMs), which verify large language model (LLM) outputs step-by-step, have achieved significant success in mathematical and coding problems. However, their application to other domains remains largely unexplored. In this work, we train a PRM to provide step-level reward signals for clinical notes generated by LLMs from patient-doctor dialogues. Guided by real-world clinician expertise, we carefully designed step definitions for clinical notes and utilized Gemini-Pro 1.5 to automatically generate process supervision data at scale. Our proposed PRM, trained on the LLaMA-3.1 8B instruct model, demonstrated superior performance compared to Gemini-Pro 1.5 and an outcome-supervised reward model (ORM) across two key evaluations: (1) the accuracy of selecting gold-reference samples from error-containing samples, achieving 98.8% (versus 61.3% for ORM and 93.8% for Gemini-Pro 1.5), and (2) the accuracy of selecting physician-preferred notes, achieving 56.2% (compared to 51.2% for ORM and 50.0% for Gemini-Pro 1.5). Additionally, we conducted ablation studies to determine optimal loss functions and data selection strategies, along with physician reader studies to explore predictors of downstream Best-of-N performance. Our promising results suggest the potential of PRMs to extend beyond the clinical domain, offering a scalable and effective solution for diverse generative tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の出力を段階的に検証するプロセス教師付き報酬モデル(PRM)は、数学的およびコーディング問題において大きな成功を収めている。
しかし、他の領域への適用はほとんど未調査のままである。
本研究では,患者と医師の対話からLLMが生成した臨床メモに対して,段階的な報酬信号を提供するためにPRMを訓練する。
実世界の臨床専門医に指導された我々は、臨床ノートのステップ定義を慎重に設計し、Gemini-Pro 1.5を使用して、大規模にプロセス監視データを自動的に生成した。
LLaMA-3.18Bインストラクタモデルを用いたPRMは,(1)エラーを含む試料から金参照サンプルを選択する精度が98.8%(ORMは61.3%,Gemini-Pro 1.5は93.8%)、(2)医師推奨ノートを選択する精度が56.2%(ORMは51.2%,Gemini-Pro 1.5は50.0%)である。
さらに、最適な損失関数とデータ選択戦略を決定するためのアブレーション研究と、下流のBest-of-Nパフォーマンスを予測するための医師読者研究を行った。
我々の有望な結果は、PRMsが臨床領域を超えて拡張し、多様な生成タスクに対してスケーラブルで効果的なソリューションを提供する可能性を示唆している。
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Parameter-Efficient Methods for Metastases Detection from Clinical Notes [19.540079966780954]
本研究の目的は,CT(Free-style Computed Tomography)ラジオグラフィーによる転移性肝疾患の検出を自動化することである。
本研究は,3つのアプローチを用いて知識を伝達することで,モデルの性能を向上させることを実証する。
論文 参考訳(メタデータ) (2023-10-27T20:30:59Z) - Improving Large Language Models for Clinical Named Entity Recognition
via Prompt Engineering [20.534197056683695]
本研究は,臨床名付きエンティティ認識(NER)タスクにおける GPT-3.5 と GPT-4 の能力を定量化する。
我々は,ベースラインプロンプト,アノテーションガイドラインに基づくプロンプト,エラー解析に基づく命令,アノテーション付きサンプルを含むタスク固有のプロンプトフレームワークを開発した。
それぞれのプロンプトの有効性を評価し,BioClinicalBERTと比較した。
論文 参考訳(メタデータ) (2023-03-29T02:46:18Z) - AD-BERT: Using Pre-trained contextualized embeddings to Predict the
Progression from Mild Cognitive Impairment to Alzheimer's Disease [14.59521645987661]
本研究では,変換器(BERT)モデルから事前学習した双方向表現に基づくディープラーニングフレームワークを開発する。
軽度認知障害(MCI)からアルツハイマー病(AD)への進行リスクを非構造的臨床ノートを用いて予測した。
論文 参考訳(メタデータ) (2022-11-07T04:05:46Z) - Strategising template-guided needle placement for MR-targeted prostate
biopsy [4.098030060686299]
2次元超音波像と生検針の連続的位置決めの動作を最適化する強化学習方針を学習する。
実験の結果, 提案したRL学習ポリシーは平均ヒット率93%, がんコア長11mmであった。
論文 参考訳(メタデータ) (2022-07-21T23:27:07Z) - Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase
Classification Using EEG [56.155331323304]
本研究では,深層学習に基づく脳波チャンネルの特徴レベル融合を行う。
チャネル選択,融合,分類手順を2つの最適化アルゴリズムで最適化した。
論文 参考訳(メタデータ) (2021-12-18T14:17:49Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。