論文の概要: Performance Assessment of ChatGPT vs Bard in Detecting Alzheimer's
Dementia
- arxiv url: http://arxiv.org/abs/2402.01751v1
- Date: Tue, 30 Jan 2024 07:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:04:51.155477
- Title: Performance Assessment of ChatGPT vs Bard in Detecting Alzheimer's
Dementia
- Title(参考訳): chatgpt対bardによるアルツハイマー型認知症検出機能の評価
- Authors: Balamurali B T, Jer-Ming Chen
- Abstract要約: 3つの大きな言語モデル(LLM)は、アルツハイマー認知症(AD)と認知正常(CN)を認識できる能力で評価される。
ゼロショット学習アプローチは、2つのレベルの独立したクエリで使用される。
各LSMの性能は、精度、感度、特異性、精度、F1スコアで生成された予測に基づいて評価される。
- 参考スコア(独自算出の注目度): 2.2843885788439797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) find increasing applications in many fields.
Here, three LLM chatbots (ChatGPT-3.5, ChatGPT-4 and Bard) are assessed - in
their current form, as publicly available - for their ability to recognize
Alzheimer's Dementia (AD) and Cognitively Normal (CN) individuals using textual
input derived from spontaneous speech recordings. Zero-shot learning approach
is used at two levels of independent queries, with the second query
(chain-of-thought prompting) eliciting more detailed than the first. Each LLM
chatbot's performance is evaluated on the prediction generated in terms of
accuracy, sensitivity, specificity, precision and F1 score. LLM chatbots
generated three-class outcome ("AD", "CN", or "Unsure"). When positively
identifying AD, Bard produced highest true-positives (89% recall) and highest
F1 score (71%), but tended to misidentify CN as AD, with high confidence (low
"Unsure" rates); for positively identifying CN, GPT-4 resulted in the highest
true-negatives at 56% and highest F1 score (62%), adopting a diplomatic stance
(moderate "Unsure" rates). Overall, three LLM chatbots identify AD vs CN
surpassing chance-levels but do not currently satisfy clinical application.
- Abstract(参考訳): 大規模言語モデル (LLM) は多くの分野で応用が増加している。
ここでは3つのLSMチャットボット(ChatGPT-3.5、ChatGPT-4、Bard)が、自発音声記録からのテキスト入力を用いてアルツハイマー性認知症(AD)と認知正常(CN)を認識できる現在の形式で評価される。
ゼロショット学習のアプローチは、2つのレベルの独立したクエリで使用されており、第2のクエリ(チェーンのプロンプト)は、第1のクエリよりも詳細なものだ。
各LSMチャットボットの性能は、精度、感度、特異性、精度、F1スコアで生成された予測に基づいて評価される。
LLMチャットボットは3種類の結果(AD、CN、Unsure)を生成した。
ADを肯定的に特定すると、バードは最高真正値(89%のリコール)と最高F1スコア(71%)を産み出したが、CNをADと誤認する傾向があり、高い信頼度(低い「不確実」率)でCNを同定すると、GPT-4は56%、最高F1スコア(62%)となり、外交的スタンス(「不確実」レート)を採用した。
全体として、3つのLLMチャットボットは、AD対CNが確率レベルを超えているが、現在臨床応用を満足していない。
関連論文リスト
- DiDOTS: Knowledge Distillation from Large-Language-Models for Dementia Obfuscation in Transcribed Speech [3.3379026542599934]
認知症は、世界中の何千万人もの人に影響を及ぼす敏感な神経認知障害である。
認知症分類の最近の進歩は、敵が影響を受けた個人のプライバシーを侵害することを可能にしている。
既存の難読化法は認知症には適用されていない。
論文 参考訳(メタデータ) (2024-10-05T15:07:03Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Rumour Evaluation with Very Large Language Models [2.6861033447765217]
本研究は,誤報に対処するために,プロンプトに依存しない大規模言語モデルの進歩を活用することを提案する。
我々は2つのRumourEvalサブタスクを拡張するために2つのプロンプトベースのLLM変種を用いる。
精度予測のために、GPT変種ごとに3つの分類スキームが実験され、各スキームはゼロ、ワンショット、および少数ショット設定で試験される。
スタンス分類では、プロンプトベースのアパッチは先行結果に匹敵する性能を示し、微調整法に比較して改善はない。
論文 参考訳(メタデータ) (2024-04-11T19:38:22Z) - Evaluation of LLM Chatbots for OSINT-based Cyber Threat Awareness [1.4932549821542682]
本研究では,ChatGPT,GPT4all,Dolly,Stanford Alpaca,Alpaca-LoRA,Falcon,Vicunaチャットボットのバイナリ分類および名前付きエンティティ認識タスクにおける性能について検討する。
バイナリ分類実験では、商業モデルとしてGPT-4が許容されるF1スコア0.94を達成し、オープンソースのGPT4allモデルはF1スコア0.90を達成した。
本研究は、OSINTバイナリ分類のためのチャットボットの能力を実証し、特別に訓練されたモデルを効果的に置き換えるために、NERをさらに改善する必要があることを示す。
論文 参考訳(メタデータ) (2024-01-26T13:15:24Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - News Verifiers Showdown: A Comparative Performance Evaluation of ChatGPT
3.5, ChatGPT 4.0, Bing AI, and Bard in News Fact-Checking [0.0]
OpenAIのChatGPT 3.5と4.0、GoogleのBard(LaMDA)、MicrosoftのBing AIが評価された。
その結果、全てのモデルで適度な熟練度を示し、平均スコアは100点中65.25点だった。
OpenAIのGPT-4.0のスコアは71であり、偽造と事実を区別する新しいLSMの能力の限界が示唆された。
論文 参考訳(メタデータ) (2023-06-18T04:30:29Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - ML-Based Analysis to Identify Speech Features Relevant in Predicting
Alzheimer's Disease [0.0]
アルツハイマー病(AD)は世界中で約5000万人に影響を及ぼし、世界的な死因の1つとなっている。
MLモデルとニューラルネットワークの両方をトレーニングして、参加者の音声パターンに基づいて予測と分類を行いました。
論文 参考訳(メタデータ) (2021-10-25T15:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。