論文の概要: Hallucination vs interpretation: rethinking accuracy and precision in AI-assisted data extraction for knowledge synthesis
- arxiv url: http://arxiv.org/abs/2508.09458v2
- Date: Thu, 14 Aug 2025 03:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 11:31:31.741656
- Title: Hallucination vs interpretation: rethinking accuracy and precision in AI-assisted data extraction for knowledge synthesis
- Title(参考訳): 幻覚と解釈--知識合成のためのAI支援データ抽出における精度と精度の再考
- Authors: Xi Long, Christy Boscardin, Lauren A. Maggio, Joseph A. Costello, Ralph Gonzales, Rasmyah Hammoudeh, Ki Lai, Yoon Soo Park, Brian C. Gin,
- Abstract要約: 我々は,大規模言語モデル(LLM)を用いてデータ抽出を自動化する抽出プラットフォームを開発した。
我々は、AIを187の出版物で人間の反応と比較し、スコーピングレビューから17の質問を抽出した。
AIの多様性は幻覚よりも解釈可能性に依存している。
- 参考スコア(独自算出の注目度): 0.9898534984111934
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge syntheses (literature reviews) are essential to health professions education (HPE), consolidating findings to advance theory and practice. However, they are labor-intensive, especially during data extraction. Artificial Intelligence (AI)-assisted extraction promises efficiency but raises concerns about accuracy, making it critical to distinguish AI 'hallucinations' (fabricated content) from legitimate interpretive differences. We developed an extraction platform using large language models (LLMs) to automate data extraction and compared AI to human responses across 187 publications and 17 extraction questions from a published scoping review. AI-human, human-human, and AI-AI consistencies were measured using interrater reliability (categorical) and thematic similarity ratings (open-ended). Errors were identified by comparing extracted responses to source publications. AI was highly consistent with humans for concrete, explicitly stated questions (e.g., title, aims) and lower for questions requiring subjective interpretation or absent in text (e.g., Kirkpatrick's outcomes, study rationale). Human-human consistency was not higher than AI-human and showed the same question-dependent variability. Discordant AI-human responses (769/3179 = 24.2%) were mostly due to interpretive differences (18.3%); AI inaccuracies were rare (1.51%), while humans were nearly three times more likely to state inaccuracies (4.37%). Findings suggest AI variability depends more on interpretability than hallucination. Repeating AI extraction can identify interpretive complexity or ambiguity, refining processes before human review. AI can be a transparent, trustworthy partner in knowledge synthesis, though caution is needed to preserve critical human insights.
- Abstract(参考訳): 知識合成(文学的レビュー)は、医学専門教育(HPE)に不可欠であり、理論と実践を前進させるために発見を統合する。
しかし、特にデータ抽出において労働集約的である。
人工知能(AI)が支援する抽出は効率を約束するが、正確性への懸念を高めるため、AIの「幻覚」(ファブリック化されたコンテンツ)と正当な解釈の違いを区別することが重要である。
我々は、大規模言語モデル(LLM)を用いて、データ抽出を自動化する抽出プラットフォームを開発し、187の出版物と17のスコーピングレビューから質問を抽出し、AIと人間の反応を比較した。
AI-人間、人間、AI-AIは、相互信頼度(カテゴリー)と主題的類似度評価(オープンエンド)を用いて測定された。
ソースパブリッシングに対する抽出された応答を比較して誤りを同定した。
AIは、具体的、明確に述べられた質問(例えば、タイトル、目的)と、主観的な解釈を必要とする質問(例えば、カークパトリックの結果、研究の合理性)に対して、人間と非常に整合性があった。
人間と人間の一貫性はAIよりも高くなかった。
一致しないAI-ヒト反応(769/3179 = 24.2%)は、主に解釈上の相違(18.3%)によるものであり、AI不正確性は稀(1.51%)であり、人間は不正確性(4.37%)の3倍近い確率であった。
AIの多様性は幻覚よりも解釈可能性に依存している。
繰り返しAI抽出は、人間のレビューの前に解釈の複雑さや曖昧さを識別し、プロセスを精査する。
AIは知識合成において透明で信頼できるパートナーであり得るが、人間の重要な洞察を維持するためには注意が必要である。
関連論文リスト
- Exploring the Impact of Explainable AI and Cognitive Capabilities on Users' Decisions [1.1049608786515839]
NFC(Need for Cognition)のようなパーソナリティ特性は、低レベルのNFC個人と高レベルのNFC個人の間で異なる意思決定結果をもたらす可能性がある。
ローンアプリケーションのシナリオにおいて,AI情報の提示が精度,AI依存度,認知負荷に与える影響について検討した。
精度, 認知負荷において, NFC群と高い群では有意な差は認められず, 意思決定における人格特性の役割について疑問が呈された。
論文 参考訳(メタデータ) (2025-05-02T11:30:53Z) - Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
本研究では、AI-Polished-Text Evaluationデータセットを用いて、12の最先端AIテキスト検出器を体系的に評価する。
我々の発見によると、検出器は、最小限に洗練されたテキストをAI生成としてフラグ付けし、AIの関与度を区別し、古いモデルや小さなモデルに対するバイアスを示す。
論文 参考訳(メタデータ) (2025-02-21T18:45:37Z) - Human Bias in the Face of AI: Examining Human Judgment Against Text Labeled as AI Generated [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。
実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。
結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - Does Explainable Artificial Intelligence Improve Human Decision-Making? [17.18994675838646]
我々は、AI(制御)を使わずに客観的な人間の意思決定精度を、AI予測(説明なし)とAI予測(説明なし)とを比較して評価する。
あらゆる種類のAI予測は、ユーザの判断精度を改善する傾向がありますが、説明可能なAIが有意義な影響を与えるという決定的な証拠はありません。
我々の結果は、少なくともいくつかの状況において、説明可能なAIが提供する「なぜ」情報は、ユーザの意思決定を促進することができないことを示唆している。
論文 参考訳(メタデータ) (2020-06-19T15:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。