論文の概要: The Alignment Paradox of Medical Large Language Models in Infertility Care: Decoupling Algorithmic Improvement from Clinical Decision-making Quality
- arxiv url: http://arxiv.org/abs/2511.18084v1
- Date: Sat, 22 Nov 2025 14:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.620793
- Title: The Alignment Paradox of Medical Large Language Models in Infertility Care: Decoupling Algorithmic Improvement from Clinical Decision-making Quality
- Title(参考訳): 不妊治療における医療用大言語モデルのアライメントパラドックス:臨床意思決定品質からのアルゴリズム改善の分離
- Authors: Dou Liu, Ying Long, Sophia Zuoqiu, Kaipeng Xie, Runze Yang, Di Liu, Kang Li, Yiting Lin, Hanyi Liu, Rong Yin, Tian Tang,
- Abstract要約: 8000以上の不妊治療記録を用いて4つのアライメント戦略を評価した。
GRPOは複数の決定層にまたがるアルゴリズムの精度が最も高い。
臨床医はSFTモデルを常に好んでおり、より明確な推論過程を引用している。
- 参考スコア(独自算出の注目度): 12.724499570706051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly adopted in clinical decision support, yet aligning them with the multifaceted reasoning pathways of real-world medicine remains a major challenge. Using more than 8,000 infertility treatment records, we systematically evaluate four alignment strategies: Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), Group Relative Policy Optimization (GRPO), and In-Context Learning (ICL) through a dual-layer framework combining automatic benchmarks with blinded doctor-in-the-loop assessments. GRPO achieves the highest algorithmic accuracy across multiple decision layers, confirming the value of reinforcement-based optimization for structured prediction tasks. However, clinicians consistently prefer the SFT model, citing clearer reasoning processes (p = 0.035) and higher therapeutic feasibility (p = 0.019). In blinded pairwise comparisons, SFT attains the highest winning rate (51.2%), outperforming both GRPO (26.2%) and even physicians' original decisions (22.7%). These results reveal an alignment paradox: algorithmic improvements do not necessarily translate into higher clinical trust, and may diverge from human-centered preferences. Our findings highlight the need for alignment strategies that prioritize clinically interpretable and practically feasible reasoning, rather than solely optimizing decision-level accuracy.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 臨床診断支援においてますます採用されているが, 現実医学の多面的推論経路との整合性は大きな課題である。
8000以上の不妊治療記録を用いて,教師付きファインチューニング(SFT),直接選好最適化(DPO),グループ相対政策最適化(GRPO),インコンテクスト学習(ICL)の4つのアライメント戦略を,自動ベンチマークと盲点付きドップイン・ザ・ループアセスメントを組み合わせた2層フレームワークを用いて体系的に評価した。
GRPOは複数の決定層にまたがるアルゴリズムの精度が最も高く、構造化予測タスクに対する強化に基づく最適化の値を確認する。
しかし、臨床医は、より明確な推論プロセス(p = 0.035)と高い治療可能性(p = 0.019)を引用して、SFTモデルを常に好んでいる。
盲目対比較では、SFTは最高勝利率(51.2%)に達し、GRPO(26.2%)と医師の当初の判断(22.7%)に勝っている。
これらの結果は、アルゴリズムの改善が必ずしも高い臨床信頼に変換されることはなく、人間中心の嗜好から逸脱する可能性があるという、アライメントパラドックスを明らかにしている。
本研究は,意思決定レベルの正確性のみを最適化するのではなく,臨床的に解釈可能かつ実用的な推論を優先するアライメント戦略の必要性を強調した。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Medical priority fusion: achieving dual optimization of sensitivity and interpretability in nipt anomaly detection [0.0]
臨床機械学習は、高い医療応用において重要なジレンマに直面している。
非侵襲的出生前検査(NIPT)では特にパラドックスが急性化しており、染色体異常が重篤な臨床結果をもたらす。
本稿では,この基本的なトレードオフを解決するための制約付き多目的最適化フレームワークである医療優先融合(MPF)を紹介する。
論文 参考訳(メタデータ) (2025-09-22T15:49:20Z) - RPRO: Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning [5.493679122639688]
医学的な質問応答には、ドメイン知識と論理的推論を統合する高度な推論が必要である。
そこで我々は,強化学習と嗜好駆動型推論改良を組み合わせた新しいフレームワークであるランキング優先強化最適化(RPRO)を提案する。
論文 参考訳(メタデータ) (2025-08-31T19:38:25Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Probability-Consistent Preference Optimization for Enhanced LLM Reasoning [36.74546743563837]
本稿では、選好選択のための2つの定量的指標を確立する新しいフレームワークを提案する。
私たちのコードはhttps://github.com/YunqiaoYang/PCPO.comで公開されています。
論文 参考訳(メタデータ) (2025-05-29T15:20:44Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Primary Care Diagnoses as a Reliable Predictor for Orthopedic Surgical Interventions [0.10624941710159722]
リファラルワークフローの非効率性は、最適な患者と高い医療費に寄与する。
本研究では,プライマリケアの診断項目に基づく手続き的ニーズの予測の可能性について検討した。
論文 参考訳(メタデータ) (2025-02-06T17:15:12Z) - Resource Planning for Hospitals Under Special Consideration of the
COVID-19 Pandemic: Optimization and Sensitivity Analysis [87.31348761201716]
新型コロナウイルス(covid-19)パンデミックのような危機は、医療機関にとって深刻な課題となる。
BaBSim.Hospitalは離散イベントシミュレーションに基づく容量計画ツールである。
BaBSim.Hospitalを改善するためにこれらのパラメータを調査し最適化することを目指しています。
論文 参考訳(メタデータ) (2021-05-16T12:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。