論文の概要: VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2603.10494v1
- Date: Wed, 11 Mar 2026 07:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.832869
- Title: VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization
- Title(参考訳): VERI-DPO:クレーム検証と直接選好最適化による臨床要約のためのエビデンス・アウェアアライメント
- Authors: Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin,
- Abstract要約: 提案するVERI-DPOは,クレーム検証を用いて選好を抽出し,それを要約器に蒸留する。
MIMIC-III-Ext-VeriFact-BHC (100 ICU患者, 患者レベル分割) では, クレーム・エビデンス・ペアをサポート付き, サポートなし, アドレスなしとラベル付けするために, 検索強化検証器を訓練する。
持ちこたえの患者では、検証対象者の選好は矛盾密度によって分離され、VERI-DPOはサポートされていない請求率を10.7%から1.9%に下げる。
- 参考スコア(独自算出の注目度): 12.675974555403366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Brief Hospital Course (BHC) narratives must be clinically useful yet faithful to fragmented EHR evidence. LLM-based clinical summarizers still introduce unsupported statements, and alignment can encourage omissions ("say-less" degeneration). We introduce VERI-DPO, which uses claim verification to mine preferences and distill them into the summarizer with Direct Preference Optimization (DPO). On MIMIC-III-Ext-VeriFact-BHC (100 ICU patients; patient-level splits), we train a retrieval-augmented verifier to label claim-evidence pairs as Supported, Not Supported, or Not Addressed via a single-token format. The verifier scores sentence-level claims from sampled BHC candidates and aggregates margins into a coverage-aware utility to mine length-controlled, contradiction-anchored preference pairs. On held-out patients, verifier-mined preferences separate candidates by contradiction density, and VERI-DPO reduces Not Supported claim rates from 10.7% to 1.9% (local verifier judge) and from 11.6% to 6.4% (GPT-4o judge), while improving validity from 76.7% to 82.5% and maintaining informative length.
- Abstract(参考訳): ブリーフ・ホスピタル・コース(英語版)(BHC)の物語は臨床的に有用であるが、断片化された EHR の証拠に忠実でなければならない。
LLMをベースとしたクリニカル・サマリナーは、いまだサポートされていないステートメントを導入しており、アライメントは、省略("say-less" degeneration")を促進する可能性がある。
提案するVERI-DPOは,クレーム検証を用いて選好をマイニングし,直接選好最適化(DPO)を用いて要約器に蒸留する。
MIMIC-III-Ext-VeriFact-BHC (100 ICU患者, 患者レベル分割) では, クレーム・エビデンス・ペアをサポート, サポートされていない, 対応していない, 対応していない, とラベル付けするために, 検索強化検証器を訓練する。
検証者は、サンプル化されたBHC候補からの文レベルのクレームをスコアし、マージンをカバーアウェアのユーティリティに集約し、長さ制御された矛盾した選好ペアをマイニングする。
留意された患者では、検証対象者の選好は矛盾密度によって分離され、VERI-DPOはサポート対象のクレームレートを10.7%から1.9%(地方検証対象者審査)、11.6%から6.4%(GPT-4o判定)に引き下げ、有効性を76.7%から82.5%に改善し、情報的長さを維持する。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - Distill and Align Decomposition for Enhanced Claim Verification [51.93960785128124]
複雑なクレーム検証には、文を検証可能なサブ文に分解する必要がある。
本稿では,分解品質と検証器のアライメントを最適化する強化学習手法を提案する。
我々のフレームワークは、より小さな言語モデルで最先端のクレーム検証を実現できる。
論文 参考訳(メタデータ) (2026-02-25T12:32:04Z) - A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care [4.108872110731109]
本研究では、8,838の心不全看護ノートを用いて、局所展開可能な言語モデルであるMistral-7Bを適応するために、直接優先最適化を適用する。
BLEU、ROUGE、BERTScore、Perplexity、専門家による質的な評価は、DPOがドキュメントの品質を著しく向上することを示している。
論文 参考訳(メタデータ) (2025-10-06T22:04:37Z) - ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences via Tournament Graph Reconstruction [25.85736569130897]
大規模言語モデル(LLM)のペアワイズ評価は、オープンエンドタスクのベンチマークにおいて支配的なパラダイムとなっている。
この重要な問題は、本質的に曖昧な選好ペアを含む低品質データに起因していることを示す。
トーナメントグラフとしてペアの選好をモデル化する,原則付きグラフ理論フレームワークであるESSPRを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:00:03Z) - An Unsupervised Natural Language Processing Pipeline for Assessing Referral Appropriateness [0.0]
本稿では,参照理由の抽出と評価が可能な,完全に教師なしの自然言語処理パイプラインを提案する。
我々のパイプラインは、イタリアの医療用テキストで事前訓練されたTransformerベースの埋め込みを活用して、参照の理由をクラスタ化する。
教師なしの環境で動作し、さまざまな試験タイプにまたがって一般化されるように設計されている。
論文 参考訳(メタデータ) (2025-01-24T18:24:16Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。