論文の概要: Evaluating ChatGPT on Medical Information Extraction Tasks: Performance, Explainability and Beyond
- arxiv url: http://arxiv.org/abs/2601.21767v1
- Date: Thu, 29 Jan 2026 14:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.886277
- Title: Evaluating ChatGPT on Medical Information Extraction Tasks: Performance, Explainability and Beyond
- Title(参考訳): 医療情報抽出課題におけるChatGPTの評価--パフォーマンス,説明可能性,その他
- Authors: Wei Zhu,
- Abstract要約: 6つのベンチマークデータセットにわたる4つの異なる医療情報抽出(MedIE)タスクにおいて、ChatGPTの全体的な能力を評価することに重点を置いている。
本稿では,ChatGPTの性能,説明可能性,信頼度,信頼度,不確実性を測定し,系統分析を行った。
- 参考スコア(独自算出の注目度): 3.615835506868351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) like ChatGPT have demonstrated amazing capabilities in comprehending user intents and generate reasonable and useful responses. Beside their ability to chat, their capabilities in various natural language processing (NLP) tasks are of interest to the research community. In this paper, we focus on assessing the overall ability of ChatGPT in 4 different medical information extraction (MedIE) tasks across 6 benchmark datasets. We present the systematically analysis by measuring ChatGPT's performance, explainability, confidence, faithfulness, and uncertainty. Our experiments reveal that: (a) ChatGPT's performance scores on MedIE tasks fall behind those of the fine-tuned baseline models. (b) ChatGPT can provide high-quality explanations for its decisions, however, ChatGPT is over-confident in its predcitions. (c) ChatGPT demonstrates a high level of faithfulness to the original text in the majority of cases. (d) The uncertainty in generation causes uncertainty in information extraction results, thus may hinder its applications in MedIE tasks.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、ユーザの意図を理解し、合理的で有用な応答を生成する素晴らしい機能を実証しています。
チャット能力の他に、様々な自然言語処理(NLP)タスクにおけるそれらの能力は、研究コミュニティにとって興味深いものである。
本稿では,6つのベンチマークデータセットにわたる4つの異なる医療情報抽出(MedIE)タスクにおいて,ChatGPTの全体的な能力を評価することに焦点を当てた。
本稿では,ChatGPTの性能,説明可能性,信頼度,信頼度,不確実性を測定し,系統分析を行った。
私たちの実験で明らかになりました。
(a) MedIEタスクにおけるChatGPTのパフォーマンススコアは、微調整されたベースラインモデルよりも下位にある。
b) ChatGPTはその決定に対して高品質な説明を提供することができるが、ChatGPTはその先入観を過信している。
(c)ChatGPTは、ほとんどの場合、原文に対して高い信頼感を示す。
(d) 生成の不確実性は情報抽出結果の不確実性を引き起こすため、MedIEタスクにおけるその適用を妨げる可能性がある。
関連論文リスト
- A Comparison of Human and ChatGPT Classification Performance on Complex Social Media Data [7.492722530877262]
一つのタスクにおけるGPT-4の性能を計測し、その結果をヒトのアノテータと比較する。
入力として4つのプロンプトスタイルを作成し、精度、リコール、F1スコアを評価します。
この結果から, ニュアンス言語を含む分類作業におけるChatGPTの使用は, プルーデンスで行うべきであることが示唆された。
論文 参考訳(メタデータ) (2025-11-29T23:59:58Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Evaluating ChatGPT's Information Extraction Capabilities: An Assessment
of Performance, Explainability, Calibration, and Faithfulness [18.945934162722466]
7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。
標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。
ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
論文 参考訳(メタデータ) (2023-04-23T12:33:18Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on
Consistency with Human Preferences [6.821378903525802]
ChatGPTは、コンテンツ評価における精度と信頼性の顕著なレベルを一貫して証明している。
幅広いユースケースをカバーするプロンプトからなるテストセットを作成し、5つのモデルを使用して対応する応答を生成する。
テストセットの結果は、ChatGPTのランク設定が人間とある程度一致していることを示している。
論文 参考訳(メタデータ) (2023-03-14T03:13:02Z) - On the Robustness of ChatGPT: An Adversarial and Out-of-distribution
Perspective [67.98821225810204]
本研究は,ChatGPTの頑健性について,敵対的視点とアウト・オブ・ディストリビューションの観点から評価する。
その結果,ほとんどの対人・OOD分類・翻訳作業において一貫した優位性を示した。
ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-02-22T11:01:20Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。