Fugu-MT 論文翻訳(概要): Affective-ROPTester: Capability and Bias Analysis of LLMs in Predicting Retinopathy of Prematurity

論文の概要: Affective-ROPTester: Capability and Bias Analysis of LLMs in Predicting Retinopathy of Prematurity

arxiv url: http://arxiv.org/abs/2507.05816v1
Date: Tue, 08 Jul 2025 09:36:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:37.836765
Title: Affective-ROPTester: Capability and Bias Analysis of LLMs in Predicting Retinopathy of Prematurity
Title（参考訳）: Affective-ROPTester:未熟児網膜症予測におけるLDMの能力とバイアス解析
Authors: Shuai Zhao, Yulin Zhang, Luwei Xiao, Xinyi Wu, Yanhao Jia, Zhongliang Guo, Xiaobao Wu, Cong-Duy Nguyen, Guoming Zhang, Anh Tuan Luu,
Abstract要約: 未熟児の網膜症(ROP)を予測できる言語モデルの能力は、まだ明らかにされていない。我々は,低,中,高リスクラベルを付加した993の入場記録を含む,CROPと呼ばれる新しい中国のベンチマークデータセットを導入する。本稿では,3つのプロンプト戦略を組み込んだ自動評価フレームワークAffective-ROPTesterを提案する。
参考スコア（独自算出の注目度）: 34.80765908439636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable progress of large language models (LLMs) across various domains, their capacity to predict retinopathy of prematurity (ROP) risk remains largely unexplored. To address this gap, we introduce a novel Chinese benchmark dataset, termed CROP, comprising 993 admission records annotated with low, medium, and high-risk labels. To systematically examine the predictive capabilities and affective biases of LLMs in ROP risk stratification, we propose Affective-ROPTester, an automated evaluation framework incorporating three prompting strategies: Instruction-based, Chain-of-Thought (CoT), and In-Context Learning (ICL). The Instruction scheme assesses LLMs' intrinsic knowledge and associated biases, whereas the CoT and ICL schemes leverage external medical knowledge to enhance predictive accuracy. Crucially, we integrate emotional elements at the prompt level to investigate how different affective framings influence the model's ability to predict ROP and its bias patterns. Empirical results derived from the CROP dataset yield two principal observations. First, LLMs demonstrate limited efficacy in ROP risk prediction when operating solely on intrinsic knowledge, yet exhibit marked performance gains when augmented with structured external inputs. Second, affective biases are evident in the model outputs, with a consistent inclination toward overestimating medium- and high-risk cases. Third, compared to negative emotions, positive emotional framing contributes to mitigating predictive bias in model outputs. These findings highlight the critical role of affect-sensitive prompt engineering in enhancing diagnostic reliability and emphasize the utility of Affective-ROPTester as a framework for evaluating and mitigating affective bias in clinical language modeling systems.
Abstract（参考訳）: 様々な領域にわたる言語モデル(LLM)の顕著な進歩にもかかわらず、未熟児網膜症(ROP)のリスクを予測する能力はほとんど探索されていない。このギャップに対処するために,低,中,高リスクラベルを付加した993の入場記録を含む,CROPと呼ばれる新しい中国のベンチマークデータセットを導入した。 ROPリスク階層化におけるLCMの予測能力と感情バイアスを体系的に検討するため,Affective-ROPTesterを提案する。インストラクション・スキームはLSMの固有の知識と関連するバイアスを評価するが、CoTとICLのスキームは外部の医療知識を活用して予測精度を高める。重要な点として、情緒的要素を即時レベルで統合し、異なる感情的フレーミングがモデルがROPとそのバイアスパターンを予測する能力にどのように影響するかを調べる。 CROPデータセットから得られた実験結果から、2つの主観測結果が得られた。第一に、LLMは本質的な知識のみで動作する場合のROPリスク予測において限定的な有効性を示すが、構造的外部入力で拡張した場合の顕著な性能向上を示す。第二に、モデル出力には感情バイアスが明らかであり、中高リスクのケースを過大評価する傾向が一貫した。第3に、ネガティブな感情と比較して、ポジティブな感情的フレーミングはモデル出力の予測バイアスを軽減するのに寄与する。これらの知見は, 臨床言語モデリングシステムにおける情動バイアスの評価・緩和の枠組みとしてのAffective-ROPTesterの有用性を強調し, 診断信頼性を高める上で, 情動性急進的工学の重要性を強調した。

関連論文リスト

Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文参考訳（メタデータ） (2025-07-18T09:06:10Z)
LLM-Augmented Symptom Analysis for Cardiovascular Disease Risk Prediction: A Clinical NLP [2.2615384250361004]
本研究は, 症状抽出, 文脈推論, 自由テキストレポートからの相関に, ドメイン適応型大言語モデルを用いた, 新規なLLM拡張臨床NLPパイプラインを提案する。 MIMIC-IIIおよびCARDIO-NLPデータセットの評価は、精度、リコール、F1スコア、AUROCにおいて高い臨床関連性を示した。
論文参考訳（メタデータ） (2025-07-15T07:32:16Z)
Statistical Learning for Heterogeneous Treatment Effects: Pretraining, Prognosis, and Prediction [40.96453902709292]
実世界の応用における現象を利用した事前学習戦略を提案する。医学では、同じ生物学的シグナル伝達経路の成分は、ベースラインリスクと治療反応の両方に頻繁に影響を及ぼす。この構造を用いて,リスク予測と因果効果推定の相乗効果を利用するモデルを構築した。
論文参考訳（メタデータ） (2025-05-01T05:12:14Z)
Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文参考訳（メタデータ） (2025-04-14T07:14:27Z)
Evaluation of the impact of expert knowledge: How decision support scores impact the effectiveness of automatic knowledge-driven feature engineering (aKDFE) [0.8272083537040182]
副作用薬物イベント(ADE)は、患者の安全性とコストに影響を与える重要な医療上の課題を提起する。本研究では,電子健康記録(EHR)データからADE予測を改善するために,知識駆動型自動特徴工学(aKDFE)を評価する。本研究では,長期心QT間隔に対するドメイン特異的ADEリスクスコアの導入が,EMHデータと薬物処理イベントを用いた予測性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-04-08T11:34:38Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Fragility-aware Classification for Understanding Risk and Improving Generalization [6.926253982569273]
リスク・リバースの観点から分類性能を評価する新しい指標であるFragility Index(FI)を導入する。我々は, クロスエントロピー損失, ヒンジ型損失, リプシッツ損失の正確な修正を導き, 深層学習モデルへのアプローチを拡張した。
論文参考訳（メタデータ） (2025-02-18T16:44:03Z)
LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文参考訳（メタデータ） (2024-10-28T08:32:09Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文参考訳（メタデータ） (2024-03-22T14:47:35Z)
A standardized framework for risk-based assessment of treatment effect heterogeneity in observational healthcare databases [60.07352590494571]
本研究の目的は,この手法を標準化されたスケーラブルなフレームワークを用いて観測環境に拡張することであった。アンジオテンシン変換酵素阻害薬(ACE)とβ阻害薬の3つの効果と6つの安全性に対する効果を評価することにより,我々の枠組みを実証する。
論文参考訳（メタデータ） (2020-10-13T14:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。