Fugu-MT 論文翻訳(概要): Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias

論文の概要: Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias

arxiv url: http://arxiv.org/abs/2401.14589v1
Date: Fri, 26 Jan 2024 01:35:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 16:15:15.619249
Title: Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias
Title（参考訳）: マルチエージェント会話による診断精度の向上: 大きな言語モデルを用いた認知バイアスの軽減
Authors: Yu He Ke, Rui Yang, Sui An Lie, Taylor Xin Yi Lim, Hairil Rizal Abdullah, Daniel Shu Wei Ting, Nan Liu
Abstract要約: 臨床的意思決定における認知的バイアスは、診断における誤りと、最適でない患者の結果に寄与する。本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
参考スコア（独自算出の注目度）: 5.692875057846007
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Background: Cognitive biases in clinical decision-making significantly contribute to errors in diagnosis and suboptimal patient outcomes. Addressing these biases presents a formidable challenge in the medical field. This study explores the role of large language models (LLMs) in mitigating these biases through the utilization of a multi-agent framework. We simulate the clinical decision-making processes through multi-agent conversation and evaluate its efficacy in improving diagnostic accuracy. Methods: A total of 16 published and unpublished case reports where cognitive biases have resulted in misdiagnoses were identified from the literature. In the multi-agent system, we leveraged GPT-4 Turbo to facilitate interactions among four simulated agents to replicate clinical team dynamics. Each agent has a distinct role: 1) To make the initial and final diagnosis after considering the discussions, 2) The devil's advocate and correct confirmation and anchoring bias, 3) The tutor and facilitator of the discussion to reduce premature closure bias, and 4) To record and summarize the findings. A total of 80 simulations were evaluated for the accuracy of initial diagnosis, top differential diagnosis and final two differential diagnoses. Findings: In a total of 80 responses evaluating both initial and final diagnoses, the initial diagnosis had an accuracy of 0% (0/80), but following multi-agent discussions, the accuracy for the top differential diagnosis increased to 71.3% (57/80), and for the final two differential diagnoses, to 80.0% (64/80). The system demonstrated an ability to reevaluate and correct misconceptions, even in scenarios with misleading initial investigations. Interpretation: The LLM-driven multi-agent conversation system shows promise in enhancing diagnostic accuracy in diagnostically challenging medical scenarios.
Abstract（参考訳）: 背景: 臨床的意思決定における認知バイアスは, 診断の誤りや患者準最適結果に大きく寄与する。これらの偏見に対処することは、医療分野において恐ろしい課題となる。本研究では,マルチエージェントフレームワークの利用によるバイアス緩和における大規模言語モデル(llm)の役割について検討する。マルチエージェント会話による臨床意思決定過程をシミュレートし,その診断精度向上効果を評価した。方法: 認知バイアスにより誤診が生じた症例は, 合計16件が報告され, 未公表となった。マルチエージェントシステムでは,gpt-4ターボを用いて4つのシミュレーションエージェント間の相互作用を促進させ,臨床チームのダイナミクスを再現した。それぞれのエージェントには異なる役割があります 1)議論を考慮し、初期及び最終診断を行う。 2)悪魔の擁護者であり、正しい確認と偏見の根絶。 3)早期閉鎖バイアスを軽減するための議論の指導者及び推進者 4) 結果の記録と要約を行う。初期診断の精度,トップディファレンシャル診断,最終2つのディファレンシャル診断において80のシミュレーションが評価された。結果: 初期診断と最終診断の両方を評価する80の回答において, 初期診断は0% (0/80) の精度を示したが, マルチエージェントによる検討の結果, 上位鑑別診断の精度は71.3% (57/80), 最終診断は80.0% (64/80) に上昇した。このシステムは、誤解を招く初期調査のシナリオであっても、誤解を再評価し、修正する能力を示した。解釈: LLM駆動型マルチエージェント会話システムでは,診断に難渋する医療シナリオにおける診断精度の向上が期待できる。

関連論文リスト

Sequential Diagnosis with Language Models [21.22416732642907]
本稿では,304症例を段階的に診断するシークエンシャル診断ベンチマークを紹介する。成績は、診断精度だけでなく、医師の診察や検査の費用によって評価される。また,医師のパネルを模擬したモデル診断オーケストレータであるMAI診断オーケストレータ(MAI-DxO)についても紹介する。
論文参考訳（メタデータ） (2025-06-27T17:27:26Z)
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [58.78045864541539]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。 DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文参考訳（メタデータ） (2025-06-25T13:42:26Z)
DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文参考訳（メタデータ） (2025-05-20T09:14:53Z)
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文参考訳（メタデータ） (2025-05-16T22:34:36Z)
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文参考訳（メタデータ） (2025-04-29T16:48:23Z)
Leveraging LLMs for Predicting Unknown Diagnoses from Clinical Notes [21.43498764977656]
放電サマリーはより完全な情報を提供する傾向があり、正確な診断を推測するのに役立ちます。本研究は,大言語モデル(LLM)が臨床ノートから暗黙的に言及された診断を予測し,それに対応する薬剤にリンクできるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-28T02:15:57Z)
Medical Reasoning in LLMs: An In-Depth Analysis of DeepSeek R1 [0.0]
本研究は、100症例のMedQAを用いて、DeepSeek R1の専門的パターンに対する医学的推論を評価する。このモデルは、診断精度93%を達成し、鑑別診断、ガイドラインに基づく治療選択、患者固有の因子の統合を通じて、体系的な臨床的判断を実証した。誤り分析では, バイアスのアンカー, 競合するデータの整合性の課題, 代替案の探索不足, 過剰思考, 知識ギャップ, 中間的治療に対する決定的治療の早期優先順位付けなど, 持続的な限界が認められた。
論文参考訳（メタデータ） (2025-03-27T09:18:08Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文参考訳（メタデータ） (2025-02-25T10:15:21Z)
MINDSETS: Multi-omics Integration with Neuroimaging for Dementia Subtyping and Effective Temporal Study [0.7751705157998379]
アルツハイマー病(AD)と血管性認知症(VaD)は最も多い認知症である。本稿では、ADとVaDを正確に区別する革新的なマルチオミクス手法を提案し、89.25%の精度で診断を行う。
論文参考訳（メタデータ） (2024-11-06T10:13:28Z)
MSDiagnosis: A Benchmark for Evaluating Large Language Models in Multi-Step Clinical Diagnosis [8.641421154025211]
われわれはMSDiagnosisと呼ばれる中国の臨床診断基準を提案する。このベンチマークは12の部門から2,225のケースで構成され、一次診断、鑑別診断、最終診断などのタスクをカバーする。
論文参考訳（メタデータ） (2024-08-19T14:31:57Z)
Methodology and Real-World Applications of Dynamic Uncertain Causality Graph for Clinical Diagnosis with Explainability and Invariance [41.373856519548404]
Dynamic Uncertain Causality Graph (DUCG)アプローチは、さまざまなアプリケーションシナリオで因果性駆動、説明可能、不変である。 54件の主訴を含む46件のDUCGモデルが製造された。実際の診断は100万件以上行われており、誤診断は17例に過ぎなかった。
論文参考訳（メタデータ） (2024-06-09T11:37:45Z)
Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation for Automatic Diagnosis [30.943705201552643]
本研究では,潜在的な疾患に対するエージェントの確率分布を適応的に融合させることにより,現実世界の診断過程をモデル化する枠組みを提案する。提案手法では,パラメータ更新とトレーニング時間を大幅に短縮し,効率と実用性を向上する。
論文参考訳（メタデータ） (2024-01-29T12:25:30Z)
Medical Dialogue Generation via Intuitive-then-Analytical Differential Diagnosis [14.17497921394565]
Intuitive-then-Analytic Differential Diagnosis (IADDx) を用いた医用対話生成フレームワークを提案する。本手法は,検索に基づく直感的アソシエーション(直感的アソシエーション)によるディファレンス診断から始まり,その後,グラフ強化解析手法により精査する。提案手法の有効性を2つのデータセットで検証した。
論文参考訳（メタデータ） (2024-01-12T12:35:19Z)
A Foundational Framework and Methodology for Personalized Early and Timely Diagnosis [84.6348989654916]
本稿では,早期診断とタイムリー診断のための基礎的枠組みを提案する。診断過程を概説する決定論的アプローチに基づいている。機械学習と統計手法を統合し、最適なパーソナライズされた診断経路を推定する。
論文参考訳（メタデータ） (2023-11-26T14:42:31Z)
The Case Records of ChatGPT: Language Models and Complex Clinical Questions [0.35157846138914034]
臨床診断における大規模言語AIモデル GPT4 と GPT3.5 の精度について検討した。 GPT4, GPT3.5は1回の試行で26%, 22%, 3回の検行で46%, 42%の精度で正しい診断を行った。
論文参考訳（メタデータ） (2023-05-09T16:58:32Z)
Exploring linguistic feature and model combination for speech recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文参考訳（メタデータ） (2022-06-28T05:09:01Z)
Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。医療対話生成のためのエンドツーエンドの変分推論手法を提案する。行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文参考訳（メタデータ） (2021-05-13T04:14:35Z)
Clinical Outcome Prediction from Admission Notes using Self-Supervised Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文参考訳（メタデータ） (2021-02-08T10:26:44Z)
Inheritance-guided Hierarchical Assignment for Clinical Automatic Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-01-27T13:16:51Z)
Towards Causality-Aware Inferring: A Sequential Discriminative Approach for Medical Diagnosis [142.90770786804507]
医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。この研究は、因果図を利用して、MDAにおけるこれらの重要な問題に対処しようとする。本稿では,他の記録から知識を引き出すことにより,非記録的調査に効果的に答える確率に基づく患者シミュレータを提案する。
論文参考訳（メタデータ） (2020-03-14T02:05:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。