論文の概要: Performance of a large language model-Artificial Intelligence based chatbot for counseling patients with sexually transmitted infections and genital diseases
- arxiv url: http://arxiv.org/abs/2412.12166v1
- Date: Wed, 11 Dec 2024 20:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:55.328767
- Title: Performance of a large language model-Artificial Intelligence based chatbot for counseling patients with sexually transmitted infections and genital diseases
- Title(参考訳): 性感染症および性器疾患患者のカウンセリングのための大規模言語モデルに基づくチャットボットの性能評価
- Authors: Nikhil Mehta, Sithira Ambepitiya, Thanveer Ahamad, Dinuka Wijesundara, Yudara Kularathne,
- Abstract要約: Otizは、STIの検出とカウンセリングに特化したAIベースのプラットフォームである。
患者言語を模倣するプロンプトを用いて, STI4種(異種性ワート, ヘルペス, 梅毒, 尿道炎, 頸部炎)を評価した。
Otizは、診断精度(4.14.7)、全体的な精度(4.34.6)、情報の正確性(5.0)、理解性(4.2-4.4)、共感(4.5-4.3.6)を高く評価した。
- 参考スコア(独自算出の注目度): 4.910821423749911
- License:
- Abstract: Introduction: Global burden of sexually transmitted infections (STIs) is rising out of proportion to specialists. Current chatbots like ChatGPT are not tailored for handling STI-related concerns out of the box. We developed Otiz, an Artificial Intelligence-based (AI-based) chatbot platform designed specifically for STI detection and counseling, and assessed its performance. Methods: Otiz employs a multi-agent system architecture based on GPT4-0613, leveraging large language model (LLM) and Deterministic Finite Automaton principles to provide contextually relevant, medically accurate, and empathetic responses. Its components include modules for general STI information, emotional recognition, Acute Stress Disorder detection, and psychotherapy. A question suggestion agent operates in parallel. Four STIs (anogenital warts, herpes, syphilis, urethritis/cervicitis) and 2 non-STIs (candidiasis, penile cancer) were evaluated using prompts mimicking patient language. Each prompt was independently graded by two venereologists conversing with Otiz as patient actors on 6 criteria using Numerical Rating Scale ranging from 0 (poor) to 5 (excellent). Results: Twenty-three venereologists did 60 evaluations of 30 prompts. Across STIs, Otiz scored highly on diagnostic accuracy (4.1-4.7), overall accuracy (4.3-4.6), correctness of information (5.0), comprehensibility (4.2-4.4), and empathy (4.5-4.8). However, relevance scores were lower (2.9-3.6), suggesting some redundancy. Diagnostic scores for non-STIs were lower (p=0.038). Inter-observer agreement was strong, with differences greater than 1 point occurring in only 12.7% of paired evaluations. Conclusions: AI conversational agents like Otiz can provide accurate, correct, discrete, non-judgmental, readily accessible and easily understandable STI-related information in an empathetic manner, and can alleviate the burden on healthcare systems.
- Abstract(参考訳): 紹介: 性感染症(STIs)の世界的な負担は専門家に比例して増加している。
ChatGPTのような現在のチャットボットは、最初からSTI関連の問題を扱うのに向いていない。
我々は、STI検出とカウンセリングに特化した人工知能ベースの(AIベースの)チャットボットプラットフォームであるOtizを開発し、その性能を評価した。
方法: OtizはGPT4-0613をベースとしたマルチエージェントシステムアーキテクチャを採用し、大規模言語モデル(LLM)と決定論的有限オートマトン(Deterministic Finite Automaton)の原則を活用して、文脈的に関連があり、医療的に正確で共感的な応答を提供する。
その構成要素は、一般的なSTI情報、感情認識、急性ストレス障害検出、心理療法のためのモジュールである。
質問提案エージェントが並列に動作する。
患者言語を模倣するプロンプトを用いて, STI4種(異所性ワート, ヘルペス, 梅毒, 尿道炎/頸部炎)と非STI2種(カンジダ症, 陰茎癌)を評価した。
各プロンプトは,Otizを患者アクターとして会話する2人の獣医が,0 (poor) から5 (excellent) までの数値レーティング尺度を用いて,それぞれ独立に評価した。
結果】30回に60回評価した。
STI全体では、Otizは診断精度(4.1-4.7)、全体的な精度(4.3-4.6)、情報の正確性(5.0)、理解性(4.2-4.4)、共感(4.5-4.8)に高い評価を受けた。
しかし、関連スコアは低く(2.9-3.6)、冗長性が示唆された。
非STIの診断スコアは低かった(p=0.038)。
サーバ間の合意は強く、ペア評価のわずか12.7%で1点以上の差が生じた。
結論: OtizのようなAIの会話エージェントは、正確で正確で、離散的で、非判断的であり、容易にアクセス可能で、理解しやすいSTI関連情報を共感的に提供し、医療システムの負担を軽減することができる。
関連論文リスト
- Improving Clinical Documentation with AI: A Comparative Study of Sporo AI Scribe and GPT-4o mini [0.0]
Sporo HealthのAI書式はOpenAIのGPT-4o Miniに対して評価された。
結果から,スポロAIはGPT-4o Miniを一貫して上回り,リコール率,精度,F1スコア全体を達成した。
論文 参考訳(メタデータ) (2024-10-20T22:48:40Z) - A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Evaluating the Application of ChatGPT in Outpatient Triage Guidance: A Comparative Study [11.37622565068147]
医療における人工知能の統合は、運用効率と健康結果を高めるための変革的な可能性を示している。
ChatGPTのような大規模言語モデル(LLM)は、医療的意思決定をサポートする能力を示している。
本研究の目的は,ChatGPTが提示する応答の整合性を評価することである。
論文 参考訳(メタデータ) (2024-04-27T04:12:02Z) - Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。
AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。
AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (2024-01-11T04:25:06Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。