論文の概要: Reliability of Large Language Model Generated Clinical Reasoning in Assisted Reproductive Technology: Blinded Comparative Evaluation Study
- arxiv url: http://arxiv.org/abs/2510.16095v1
- Date: Fri, 17 Oct 2025 17:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.849776
- Title: Reliability of Large Language Model Generated Clinical Reasoning in Assisted Reproductive Technology: Blinded Comparative Evaluation Study
- Title(参考訳): 大規模言語モデルを用いた再生技術における臨床推論の信頼性:ブラインド比較評価研究
- Authors: Dou Liu, Ying Long, Sophia Zuoqiu, Di Liu, Kang Li, Yiting Lin, Hanyi Liu, Rong Yin, Tian Tang,
- Abstract要約: 大言語モデル(LLM)は医療データを合成できるが、その臨床的信頼性は検証されていない。
本研究は, LLM生成したCoTの信頼性を評価し, 品質向上に向けた戦略について検討する。
- 参考スコア(独自算出の注目度): 12.86201655242418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating high-quality clinical Chains-of-Thought (CoTs) is crucial for explainable medical Artificial Intelligence (AI) while constrained by data scarcity. Although Large Language Models (LLMs) can synthesize medical data, their clinical reliability remains unverified. This study evaluates the reliability of LLM-generated CoTs and investigates prompting strategies to enhance their quality. In a blinded comparative study, senior clinicians in Assisted Reproductive Technology (ART) evaluated CoTs generated via three distinct strategies: Zero-shot, Random Few-shot (using shallow examples), and Selective Few-shot (using diverse, high-quality examples). These expert ratings were compared against evaluations from a state-of-the-art AI model (GPT-4o). The Selective Few-shot strategy significantly outperformed other strategies across all human evaluation metrics (p < .001). Critically, the Random Few-shot strategy offered no significant improvement over the Zero-shot baseline, demonstrating that low-quality examples are as ineffective as no examples. The success of the Selective strategy is attributed to two principles: "Gold-Standard Depth" (reasoning quality) and "Representative Diversity" (generalization). Notably, the AI evaluator failed to discern these critical performance differences. The clinical reliability of synthetic CoTs is dictated by strategic prompt curation, not the mere presence of examples. We propose a "Dual Principles" framework as a foundational methodology to generate trustworthy data at scale. This work offers a validated solution to the data bottleneck and confirms the indispensable role of human expertise in evaluating high-stakes clinical AI.
- Abstract(参考訳): 高品質な臨床チェーン・オブ・ワット(CoTs)の作成は、データ不足に制約されたまま、説明可能な医療人工知能(AI)に不可欠である。
大言語モデル(LLM)は医療データを合成できるが、その臨床的信頼性は検証されていない。
本研究は, LLM生成したCoTの信頼性を評価し, 品質向上に向けた戦略について検討する。
Assisted Reproductive Technology(ART)の上級臨床医は、ゼロショット(Zero-shot)、ランダムフイショット(Random Few-shot)、選択フイショット(Selective Few-shot)という3つの異なる戦略を用いて生成されたCoTを評価した。
これらの専門家評価は、最先端AIモデル(GPT-4o)の評価と比較された。
Selective Few-shot戦略は、すべての人間の評価指標(p < .001)において、他の戦略よりも優れていた。
批判的に言えば、ランダム・フューショットの戦略はゼロショットのベースラインよりも顕著な改善を示さず、低品質の例は例がないほど効果がないことを示した。
選択的戦略の成功は、"Gold-Standard Depth"(品質)と"Representative Diversity"(一般化)の2つの原則に起因している。
特に、AI評価器はこれらの重要なパフォーマンスの違いを識別できなかった。
合成CoTsの臨床的信頼性は、単なる例の存在ではなく、戦略的急激なキュレーションによって決定される。
本稿では,信頼性の高いデータを大規模に生成するための基礎方法論として,"Dual Principles"フレームワークを提案する。
この研究は、データのボトルネックに対する検証済みのソリューションを提供し、高度な臨床AIを評価する上で、人間の専門知識が不可欠であることを確認した。
関連論文リスト
- The Framework That Survives Bad Models: Human-AI Collaboration For Clinical Trials [2.6377299508948746]
AIをサポートリーダ(AI-SR)として使用することは、悪いモデルであっても、さまざまなモデルタイプにまたがるすべての基準を満たすため、臨床試験において最も適したアプローチである。
本手法は、信頼性の高い疾患推定を一貫して提供し、臨床治験効果の推定と結論を維持し、異なる集団に適用した場合にこれらの利点を保持する。
論文 参考訳(メタデータ) (2025-10-08T01:40:41Z) - Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning [6.778254993886297]
Fleming-R1は、3つの相補的な革新を通じて、医学的推論を検証するために設計されたモデルである。
まず、我々のReasoning-Oriented Data Strategy(RODS)は、キュレートされた医療用QAデータセットと知識グラフ誘導合成を組み合わせる。
第2に,教師モデルから高品質な推論軌跡を蒸留するために,CoTコールドスタート(Chain-of-Thought)を用いる。
第三に、検証可能なリワードフレームワークから2段階の強化学習を実装します。
論文 参考訳(メタデータ) (2025-09-18T13:35:14Z) - A systematic review of trial-matching pipelines using large language models [0.9176056742068814]
患者を臨床試験の選択肢に合わせることは、特に腫瘍学において新しい治療法を特定するために重要である。
大規模言語モデル(LLM)はこの問題に対して有望な解決策を提供する。
本総説では, 臨床治験におけるLSMの応用の進展を概説し, 有望な方向性と限界を強調した。
論文 参考訳(メタデータ) (2025-09-13T21:21:05Z) - NVS-SQA: Exploring Self-Supervised Quality Representation Learning for Neurally Synthesized Scenes without References [55.35182166250742]
我々は,NVS-SQAを提案する。NVS-SQAは,自己スーパービジョンを通じて,非参照品質表現を学習するための品質評価手法である。
従来の自己教師型学習は、主に"same instance, similar representation"仮定と広範なデータセットに依存している。
我々は、学習の効率と効率を改善するために、フォトリアリスティックな手がかりと品質スコアを学習目的として採用する。
論文 参考訳(メタデータ) (2025-01-11T09:12:43Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - A New Approach for Interpretability and Reliability in Clinical Risk
Prediction: Acute Coronary Syndrome Scenario [0.33927193323747895]
我々は、リスクスコアと機械学習モデルの両方の最高の特徴を組み合わせた、新たなリスクアセスメント方法論を作成するつもりです。
提案手法は、標準LRと同一の試験結果を得たが、より優れた解釈性とパーソナライゼーションを提供する。
個人予測の信頼性推定は誤分類率と大きな相関を示した。
論文 参考訳(メタデータ) (2021-10-15T19:33:46Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Strategy for Boosting Pair Comparison and Improving Quality Assessment
Accuracy [29.849156371902943]
ペア比較(PC)は、差別性の観点からは絶対カテゴリー評価(ACR)に対して大きな利点がある。
本研究では,ペア比較データとACRデータをブリッジする汎用モデルを用いて,分散項を復元し,得られた情報がより完全であることを示す。
このようにして、提案手法はペア比較の精度を同等に向上するが、ACRほど高い包括性を達成できる。
論文 参考訳(メタデータ) (2020-10-01T13:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。