論文の概要: When Machines Get It Wrong: Large Language Models Perpetuate Autism Myths More Than Humans Do
- arxiv url: http://arxiv.org/abs/2601.22893v1
- Date: Fri, 30 Jan 2026 12:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.430077
- Title: When Machines Get It Wrong: Large Language Models Perpetuate Autism Myths More Than Humans Do
- Title(参考訳): 機械が誤る時:大規模言語モデルは人間よりも自閉症の神話を永続させる
- Authors: Eduardo C. Garrido-Merchán, Adriana Constanza Cirera Tirschtigel,
- Abstract要約: 本研究は,先行するAIシステムが自閉症スペクトラム障害に関する誤解を永久に克服するか否かを検討する。
人類の参加者はLLMよりもはるかに少ない神話を支持した。
評価項目30項目のうち18項目において、人間はAIシステムを大きく上回った。
- 参考スコア(独自算出の注目度): 1.3320917259299652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models become ubiquitous sources of health information, understanding their capacity to accurately represent stigmatized conditions is crucial for responsible deployment. This study examines whether leading AI systems perpetuate or challenge misconceptions about Autism Spectrum Disorder, a condition particularly vulnerable to harmful myths. We administered a 30-item instrument measuring autism knowledge to 178 participants and three state-of-the-art LLMs including GPT-4, Claude, and Gemini. Contrary to expectations that AI systems would leverage their vast training data to outperform humans, we found the opposite pattern: human participants endorsed significantly fewer myths than LLMs (36.2% vs. 44.8% error rate; z = -2.59, p = .0048). In 18 of the 30 evaluated items, humans significantly outperformed AI systems. These findings reveal a critical blind spot in current AI systems and have important implications for human-AI interaction design, the epistemology of machine knowledge, and the need to center neurodivergent perspectives in AI development.
- Abstract(参考訳): 大規模言語モデルがユビキタスな健康情報源となるにつれて、スティグマタイズされた条件を正確に表現する能力を理解することは、責任ある展開に不可欠である。
本研究では,先導的なAIシステムが,特に悪質な神話に対して脆弱な自閉症スペクトラム障害に関する誤解を永続的に解決するか否かを検討する。
我々は,GPT-4,Claude,Geminiの3つの最先端LPMに対して,自閉症知識を測定する30項目の計器を投与した。
人間よりもはるかに少ない神話(36.2%対44.8%のエラー率、z = -2.59, p = .0048)を支持した。
評価項目30項目のうち18項目において、人間はAIシステムを大きく上回った。
これらの発見は、現在のAIシステムにおいて重要な盲点を示し、人間とAIの相互作用設計、機械知識の認識論、そしてAI開発における神経分極的視点の集中の必要性に重要な意味を持つ。
関連論文リスト
- Explainable AI as a Double-Edged Sword in Dermatology: The Impact on Clinicians versus The Public [46.86429592892395]
説明可能なAI(XAI)は、AI意思決定の洞察を提供することによって、この問題に対処する。
フェアネスに基づく診断AIモデルと異なるXAI説明を組み合わせた2つの大規模実験の結果を報告する。
論文 参考訳(メタデータ) (2025-12-14T00:06:06Z) - A Definition of AGI [208.25193480759026]
人工知能の具体的な定義の欠如は、今日の専門的なAIと人間レベルの認知のギャップを曖昧にしている。
そこで本研究では,AGIを認知的多目的性と熟達度に適合するものとして,これに対応するための定量的枠組みを提案する。
論文 参考訳(メタデータ) (2025-10-21T01:28:35Z) - Divergent Realities: A Comparative Analysis of Human Expert vs. Artificial Intelligence Based Generation and Evaluation of Treatment Plans in Dermatology [0.0]
AIが診断を超えて拡大するにつれ、AIが生成する治療計画を評価することが重要な課題となる。
この研究は、人間の専門家と2つのAIモデル(ジェネラリストと推論者)の計画を比較する。
論文 参考訳(メタデータ) (2025-07-08T06:59:58Z) - Beyond Black-Box AI: Interpretable Hybrid Systems for Dementia Care [2.4339626079536925]
近年の大規模言語モデル(LLM)のブームは、人工知能(AI)システムが医療診断に役立つという期待を再燃させた。
ベンチマークスコアはめちゃくちゃですが、LCMアシスタントはまだベッドサイドで測定可能な改善を提供していません。
このスクーピングレビューは、臨床現場で実践的な貢献をするためにAIが制限されている領域を強調することを目的としている。
論文 参考訳(メタデータ) (2025-07-02T01:43:06Z) - Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
本研究では、AI-Polished-Text Evaluationデータセットを用いて、12の最先端AIテキスト検出器を体系的に評価する。
我々の発見によると、検出器は、最小限に洗練されたテキストをAI生成としてフラグ付けし、AIの関与度を区別し、古いモデルや小さなモデルに対するバイアスを示す。
論文 参考訳(メタデータ) (2025-02-21T18:45:37Z) - Trustworthy and Practical AI for Healthcare: A Guided Deferral System with Large Language Models [1.2281181385434294]
大規模言語モデル(LLM)は、医療における様々なアプリケーションに有用な技術を提供する。
彼らの幻覚化傾向と既存のプロプライエタリなシステムへの依存は、批判的な意思決定に関する環境に課題をもたらす。
本稿では,障害分類のための医療報告を同時に解析し,ヒトへの知的な指導による不確実な予測を推論する新しいHAICガイド型deferralシステムを提案する。
論文 参考訳(メタデータ) (2024-06-11T12:41:54Z) - Improving Human-AI Collaboration With Descriptions of AI Behavior [14.904401331154062]
人々はAIシステムを使って意思決定を改善するが、しばしばAIの予測を過度に、あるいは過度に予測し、手伝わなかったよりも悪いパフォーマンスをする。
人々がAIアシスタントを適切に頼りにするために、行動記述を示すことを提案する。
論文 参考訳(メタデータ) (2023-01-06T00:33:08Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。