論文の概要: Human-AI collectives produce the most accurate differential diagnoses
- arxiv url: http://arxiv.org/abs/2406.14981v1
- Date: Fri, 21 Jun 2024 08:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:13:25.503672
- Title: Human-AI collectives produce the most accurate differential diagnoses
- Title(参考訳): ヒト-AI集団は最も正確な鑑別診断を行う
- Authors: N. Zöller, J. Berger, I. Lin, N. Fu, J. Komarneni, G. Barabucci, K. Laskowski, V. Shia, B. Harack, E. A. Chu, V. Trianni, R. H. J. M. Kurvers, S. M. Herzog,
- Abstract要約: 医師集団と大規模言語モデル(LLM)のハイブリッド集団は,医師集団と医師集団のどちらよりも優れていることを示す。
我々のアプローチは、医療診断のような複雑でオープンな領域における精度を向上させるための、人間と機械の集合的知性の可能性を強調します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence systems, particularly large language models (LLMs), are increasingly being employed in high-stakes decisions that impact both individuals and society at large, often without adequate safeguards to ensure safety, quality, and equity. Yet LLMs hallucinate, lack common sense, and are biased - shortcomings that may reflect LLMs' inherent limitations and thus may not be remedied by more sophisticated architectures, more data, or more human feedback. Relying solely on LLMs for complex, high-stakes decisions is therefore problematic. Here we present a hybrid collective intelligence system that mitigates these risks by leveraging the complementary strengths of human experience and the vast information processed by LLMs. We apply our method to open-ended medical diagnostics, combining 40,762 differential diagnoses made by physicians with the diagnoses of five state-of-the art LLMs across 2,133 medical cases. We show that hybrid collectives of physicians and LLMs outperform both single physicians and physician collectives, as well as single LLMs and LLM ensembles. This result holds across a range of medical specialties and professional experience, and can be attributed to humans' and LLMs' complementary contributions that lead to different kinds of errors. Our approach highlights the potential for collective human and machine intelligence to improve accuracy in complex, open-ended domains like medical diagnostics.
- Abstract(参考訳): 人工知能システム、特に大規模言語モデル(LLM)は、安全、品質、および株式を確保するための適切な保護がなければ、個人と社会の両方に大きな影響を及ぼす高い意思決定にますます採用されている。
しかし、LLMは幻覚を呈し、常識を欠き、偏見が偏っている - LLM固有の制限を反映している可能性があるため、より洗練されたアーキテクチャ、より多くのデータ、あるいはより人間のフィードバックによって修正されない可能性がある。
したがって、LLMにのみ焦点をあてて、複雑で高い判断を下すことは問題となる。
本稿では,人間体験の相補的強みとLLMが処理する膨大な情報を活用することで,これらのリスクを軽減するハイブリッド集団知能システムを提案する。
医師による40,762件の鑑別診断と,2,133件の当科5症例の鑑別を行った。
医師とLLMのハイブリッド集団は,単独の医師と医師の集団,および単一LLMとLLMのアンサンブルよりも優れていた。
この結果は、様々な医学的専門知識や専門的経験に及び、様々な種類のエラーにつながる人間やLSMの補完的な貢献に起因する可能性がある。
我々のアプローチは、医療診断のような複雑でオープンな領域における精度を向上させるための、人間と機械の集合的知性の可能性を強調します。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - When One LLM Drools, Multi-LLM Collaboration Rules [98.71562711695991]
私たちは、データ、スキル、人々の幅広い多様性を表現するために、マルチLLMコラボレーションを議論しています。
既存のマルチLLM協調手法を,アクセスレベルと情報交換レベルに基づいて階層構造に整理する。
コンポジションインテリジェンスとコラボレーティブAI開発への不可欠な道として,マルチLLMコラボレーションを構想する。
論文 参考訳(メタデータ) (2025-02-06T21:13:44Z) - Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。
この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文 参考訳(メタデータ) (2024-10-27T23:48:47Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making [45.74980058831342]
MDAgents(Medical Decision-making Agents)と呼ばれる新しいマルチエージェントフレームワークを導入する。
割り当てられた単独またはグループの共同作業構造は、実際の医療決定過程をエミュレートして、手元にある医療タスクに合わせて調整される。
MDAgentsは医療知識の理解を必要とするタスクに関する10のベンチマークのうち7つのベンチマークで最高のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-04-22T06:30:05Z) - Large Language Models and User Trust: Consequence of Self-Referential Learning Loop and the Deskilling of Healthcare Professionals [1.6574413179773761]
本稿では, LLMにおける臨床医の信頼と, 主に人間生成コンテンツからAI生成コンテンツへのデータソースの影響との関係について検討する。
主な懸念の1つは、LLMが学習のアウトプットにより依存するにつれて生じる潜在的なフィードバックループである。
調査から得られた重要なポイントは、ユーザの専門知識の重要な役割と、LCMのアウトプットを信頼し、検証するための差別化アプローチの必要性である。
論文 参考訳(メタデータ) (2024-03-15T04:04:45Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。