論文の概要: Divergent Realities: A Comparative Analysis of Human Expert vs. Artificial Intelligence Based Generation and Evaluation of Treatment Plans in Dermatology
- arxiv url: http://arxiv.org/abs/2507.05716v1
- Date: Tue, 08 Jul 2025 06:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.650789
- Title: Divergent Realities: A Comparative Analysis of Human Expert vs. Artificial Intelligence Based Generation and Evaluation of Treatment Plans in Dermatology
- Title(参考訳): 多様性の現実:人間と人工知能の比較分析と皮膚科における治療計画の評価
- Authors: Dipayan Sengupta, Saumya Panda,
- Abstract要約: AIが診断を超えて拡大するにつれ、AIが生成する治療計画を評価することが重要な課題となる。
この研究は、人間の専門家と2つのAIモデル(ジェネラリストと推論者)の計画を比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Background: Evaluating AI-generated treatment plans is a key challenge as AI expands beyond diagnostics, especially with new reasoning models. This study compares plans from human experts and two AI models (a generalist and a reasoner), assessed by both human peers and a superior AI judge. Methods: Ten dermatologists, a generalist AI (GPT-4o), and a reasoning AI (o3) generated treatment plans for five complex dermatology cases. The anonymized, normalized plans were scored in two phases: 1) by the ten human experts, and 2) by a superior AI judge (Gemini 2.5 Pro) using an identical rubric. Results: A profound 'evaluator effect' was observed. Human experts scored peer-generated plans significantly higher than AI plans (mean 7.62 vs. 7.16; p=0.0313), ranking GPT-4o 6th (mean 7.38) and the reasoning model, o3, 11th (mean 6.97). Conversely, the AI judge produced a complete inversion, scoring AI plans significantly higher than human plans (mean 7.75 vs. 6.79; p=0.0313). It ranked o3 1st (mean 8.20) and GPT-4o 2nd, placing all human experts lower. Conclusions: The perceived quality of a clinical plan is fundamentally dependent on the evaluator's nature. An advanced reasoning AI, ranked poorly by human experts, was judged as superior by a sophisticated AI, revealing a deep gap between experience-based clinical heuristics and data-driven algorithmic logic. This paradox presents a critical challenge for AI integration, suggesting the future requires synergistic, explainable human-AI systems that bridge this reasoning gap to augment clinical care.
- Abstract(参考訳): 背景: AIの生成する治療計画を評価することは、AIが診断を越えて、特に新しい推論モデルで拡張する上で重要な課題である。
この研究は、人間の専門家と2つのAIモデル(ジェネラリストと推論者)の計画を比較する。
方法:10人の皮膚科医,一般AI(GPT-4o)および推論AI(o3)は5つの複雑な皮膚科症例に対する治療計画を作成した。
匿名化・正規化計画は2段階に分けて行われた。
1) 人類の専門家10名による。
2) 上質なAI審査員(Gemini 2.5 Pro)が同一の潤滑剤を使用して行う。
結果: 深い「評価者効果」が認められた。
人間の専門家は、AI計画(平均7.62対7.16; p=0.0313)、GPT-4o 6位(平均7.38)、推論モデルo3, 11位(平均6.97)よりも、ピアジェネレーションプランをかなり高く評価した。
逆に、AI判事は完全な逆転を行い、AI計画が人間の計画(平均7.75対6.79; p=0.0313)よりもかなり高い結果を得た。
第1位 (平均8.20) と第2位 (GPT-4o 2) にランクインし、全ての専門家を下降させた。
結論: 臨床計画の質は, 評価者の性格に大きく依存する。
高度な推論AIは、人間の専門家によっては劣るが、高度なAIによって優れていると判断され、経験ベースの臨床ヒューリスティックとデータ駆動アルゴリズム論理との深いギャップが明らかになった。
このパラドックスは、AI統合にとって重要な課題であり、将来は、この推論ギャップを埋めて臨床ケアを強化する、シナジスティックで説明可能な人間-AIシステムが必要であることを示唆している。
関連論文リスト
- AI Debate Aids Assessment of Controversial Claims [86.47978525513236]
AIの議論が、新型コロナウイルス(COVID-19)の事実性主張に反対する2つのAIシステムを議論することで、偏見のある裁判官を真実に導くことができるかどうかを調査する。
人間の研究では、2つのAIアドバイザシステムが対立するエビデンスに基づく議論を提示し、判定精度と信頼性の校正を改善していることがわかった。
我々のAIジャッジスタディでは、人間のようなペルソナを持つAIジャッジが、人間のジャッジ(70.1%)とデフォルトのAIジャッジ(69.8%)よりさらに高い精度(78.5%)を達成することが分かりました。
論文 参考訳(メタデータ) (2025-06-02T19:01:53Z) - Can Domain Experts Rely on AI Appropriately? A Case Study on AI-Assisted Prostate Cancer MRI Diagnosis [19.73932120146401]
MRI画像を用いた前立腺癌診断において,放射線科医と深く連携する。
インターフェースを開発し、AIアシストとパフォーマンスフィードバックがドメインエキスパートの意思決定をどのように形作るかを研究する2つの実験を行う。
論文 参考訳(メタデータ) (2025-02-03T18:59:38Z) - Aligning Generalisation Between Humans and Machines [74.120848518198]
AI技術は、科学的発見と意思決定において人間を支援することができるが、民主主義と個人を妨害することもある。
AIの責任ある使用と人間-AIチームへの参加は、AIアライメントの必要性をますます示している。
これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文 参考訳(メタデータ) (2024-11-23T18:36:07Z) - Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - Does AI help humans make better decisions? A statistical evaluation framework for experimental and observational studies [0.43981305860983716]
我々は、人間とAI、AIの3つの代替意思決定システムのパフォーマンスを比較する方法を示す。
リスクアセスメントの勧告は、現金保釈を課す裁判官の決定の分類精度を向上しないことがわかった。
論文 参考訳(メタデータ) (2024-03-18T01:04:52Z) - Understanding the Effect of Counterfactual Explanations on Trust and
Reliance on AI for Human-AI Collaborative Clinical Decision Making [5.381004207943597]
本研究は,7人のセラピストと10人のレイパーを対象に,ストローク後生存者の運動の質を評価するための実験を行った。
我々は2種類のAI説明なしで、彼らのパフォーマンス、タスクの合意レベル、AIへの依存を分析した。
我々の研究は、AIモデルの精度をより正確に見積り、間違ったAI出力に対する過度な信頼を減らすために、反事実的説明の可能性について論じている。
論文 参考訳(メタデータ) (2023-08-08T16:23:46Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Improving Human-AI Collaboration With Descriptions of AI Behavior [14.904401331154062]
人々はAIシステムを使って意思決定を改善するが、しばしばAIの予測を過度に、あるいは過度に予測し、手伝わなかったよりも悪いパフォーマンスをする。
人々がAIアシスタントを適切に頼りにするために、行動記述を示すことを提案する。
論文 参考訳(メタデータ) (2023-01-06T00:33:08Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - To Trust or to Think: Cognitive Forcing Functions Can Reduce
Overreliance on AI in AI-assisted Decision-making [4.877174544937129]
AIによる意思決定支援ツールによってサポートされる人々は、しばしばAIに過度に依存します。
AIの決定に説明を加えることは、過度な信頼を減らすものではありません。
我々の研究は、人間の認知モチベーションが説明可能なAIソリューションの有効性を損なうことを示唆している。
論文 参考訳(メタデータ) (2021-02-19T00:38:53Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。