論文の概要: Optimizing Long-Form Clinical Text Generation with Claim-Based Rewards
- arxiv url: http://arxiv.org/abs/2510.02338v1
- Date: Fri, 26 Sep 2025 17:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.01345
- Title: Optimizing Long-Form Clinical Text Generation with Claim-Based Rewards
- Title(参考訳): Claim-based Rewards を用いた長期臨床テキスト生成の最適化
- Authors: Samyak Jhaveri, Praphul Singh, Jangwon Kim, Tara Taghavi, Krishnaram Kenthapadi,
- Abstract要約: 長期臨床テキスト生成のための評価統合強化学習フレームワークを提案する。
提案手法は,個別の報酬モデルを訓練したり,人手による参照に頼ることなく,現実的な接地と完全性を直接的に最適化する。
このフレームワークは現実世界の設定にスケーラブルで、ガイドラインの遵守や請求の好みといったカスタムの目的を組み込むことができる。
- 参考スコア(独自算出の注目度): 9.525090594500577
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automating clinical documentation with large language models requires precise alignment with priorities such as completeness and factual grounding. We present an evaluation-integrated reinforcement learning framework for long-form clinical text generation that couples Group Relative Policy Optimization (GRPO) with DocLens, a claim-level evaluator that provides deterministic, dialogue-grounded rewards. Our method directly optimizes factual grounding and completeness without training a separate reward model or relying on human-authored references. Empirically, the approach improves clinical note quality and reduces training cost via a simple reward-gating strategy. An independent GPT-5 qualitative evaluation further supports these gains, showing higher preference for GRPO outputs in factuality, completeness, and brevity, with fewer omissions and hallucinations. Because the benchmarks are relatively clean and the base model already well aligned, these improvements likely represent a conservative lower bound. The framework is scalable to real-world settings and can incorporate custom objectives such as guideline adherence or billing preferences.
- Abstract(参考訳): 大きな言語モデルで臨床文書を自動化するには、完全性や事実的根拠といった優先順位を正確に調整する必要がある。
本稿では,グループ相対政策最適化(GRPO)とクレームレベル評価器DocLensを結合した長期臨床テキスト生成のための評価統合強化学習フレームワークを提案する。
提案手法は,個別の報酬モデルを訓練したり,人為的な参照に頼ることなく,現実的な根拠と完全性を直接的に最適化する。
経験的に、このアプローチは臨床ノートの品質を向上し、単純な報奨戦略によってトレーニングコストを削減します。
独立した GPT-5 質的評価はこれらの利得をさらに支持し、GRPO 出力の事実性、完全性、簡潔性をより優先し、排便や幻覚を減らした。
ベンチマークは比較的クリーンで、ベースモデルはすでに整列しているため、これらの改善は保守的な下限を表している可能性が高い。
このフレームワークは現実世界の設定にスケーラブルで、ガイドラインの遵守や請求の好みといったカスタムの目的を組み込むことができる。
関連論文リスト
- Random Direct Preference Optimization for Radiography Report Generation [3.5915338392912344]
医用画像解析において放射線診断報告生成(RRG)が注目されている。
既存の方法はまだ実際の臨床環境での展開に必要な品質を達成できていない。
DPO(Direct Preference Optimization)を用いたRRGの精度向上のためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-19T10:53:45Z) - RPRO:Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning [5.6813794530075725]
医学的な質問応答には、ドメイン知識と論理的推論を統合する高度な推論が必要である。
そこで我々は,強化学習と嗜好駆動型推論改良を組み合わせた新しいフレームワークであるランキング優先強化最適化(RPRO)を提案する。
論文 参考訳(メタデータ) (2025-08-31T19:38:25Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset [89.37514696019484]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。
私たちの作業は、好みのデータセット設計をアドホックなスケーリングからコンポーネント対応の最適化にシフトします。
論文 参考訳(メタデータ) (2025-04-04T17:33:07Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Systematic Reward Gap Optimization for Mitigating VLM Hallucinations [34.71750379630014]
本稿では,報酬ギャップ構成の体系的最適化を目的とした新しいフレームワークであるトピックレベルの参照書き換え(TPR)を紹介する。
TPRは、詳細なセマンティック詳細をトピックレベルに制御し、高度なデータキュレーション戦略を可能にする。
ObjectHal-Benchでは幻覚を最大93%減少させ、堅牢で費用対効果の高いVLMアライメントに対して優れたデータ効率を示す。
論文 参考訳(メタデータ) (2024-11-26T09:42:07Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。