論文の概要: CHBench: A Chinese Dataset for Evaluating Health in Large Language Models
- arxiv url: http://arxiv.org/abs/2409.15766v2
- Date: Fri, 21 Feb 2025 13:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:26.139234
- Title: CHBench: A Chinese Dataset for Evaluating Health in Large Language Models
- Title(参考訳): CHBench: 大規模言語モデルにおける健康評価のための中国のデータセット
- Authors: Chenlu Guo, Nuo Xu, Yi Chang, Yuan Wu,
- Abstract要約: 中国初の包括的安全志向の健康関連ベンチマークであるCHBenchを紹介する。
CHBenchは精神保健に関する6,493項目、身体健康に関する2,999項目で構成されており、幅広いトピックをカバーしている。
- 参考スコア(独自算出の注目度): 19.209493319541693
- License:
- Abstract: With the rapid development of large language models (LLMs), assessing their performance on health-related inquiries has become increasingly essential. The use of these models in real-world contexts-where misinformation can lead to serious consequences for individuals seeking medical advice and support-necessitates a rigorous focus on safety and trustworthiness. In this work, we introduce CHBench, the first comprehensive safety-oriented Chinese health-related benchmark designed to evaluate LLMs' capabilities in understanding and addressing physical and mental health issues with a safety perspective across diverse scenarios. CHBench comprises 6,493 entries on mental health and 2,999 entries on physical health, spanning a wide range of topics. Our extensive evaluations of four popular Chinese LLMs highlight significant gaps in their capacity to deliver safe and accurate health information, underscoring the urgent need for further advancements in this critical domain. The code is available at https://github.com/TracyGuo2001/CHBench.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展に伴い、健康関連質問に対する評価がますます重要になっている。
現実の文脈でこれらのモデルを使用することは、医療アドバイスを求める個人にとって深刻な結果をもたらす可能性があり、安全と信頼性に厳格な焦点をあてる必要がある。
本研究は,中国初の総合的安全志向型健康関連ベンチマークであるCHBenchを紹介する。
CHBenchは精神保健に関する6,493項目、身体健康に関する2,999項目で構成されており、幅広いトピックをカバーしている。
中国の4つのLLMの広範な評価は、安全で正確な健康情報を提供する能力の欠如を浮き彫りにしており、この重要な領域におけるさらなる進歩の必要性を浮き彫りにしている。
コードはhttps://github.com/TracyGuo2001/CHBenchで公開されている。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Do LLMs Provide Consistent Answers to Health-Related Questions across Languages? [14.87110905165928]
英語,ドイツ語,トルコ語,中国語の健康問題に対するLarge Language Models (LLMs) による回答の整合性を検討した。
医療の誤報を広める可能性のある反応の重大な矛盾を明らかにした。
本研究は, 正確で公平な医療情報を確保するために, 言語間アライメントの改善の必要性を強調した。
論文 参考訳(メタデータ) (2025-01-24T18:51:26Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - HRDE: Retrieval-Augmented Large Language Models for Chinese Health Rumor Detection and Explainability [6.800433977880405]
本稿では、一般的な健康関連質問のWebスクレイピングを通じて、12万件の健康関連噂(HealthRCN)を含むデータセットを構築する。
我々は,中国の健康噂の検出と説明可能性 (HRDE) のための検索強化された大規模言語モデルを提案する。
論文 参考訳(メタデータ) (2024-06-30T11:27:50Z) - Potential Renovation of Information Search Process with the Power of Large Language Model for Healthcare [0.0]
本稿では,6段階情報探索モデルの開発と,LLM(Large Language Model)を利用した医療用情報探索プロセス(ISP)の適用による拡張について検討する。
論文 参考訳(メタデータ) (2024-06-29T07:00:47Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries [31.82249599013959]
大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
LLMは印象的な言語理解と生成能力を示しているが、その安全性に関する懸念は依然として最重要である。
これらのLLMが非英語の文脈でどのように機能するかは、まだ不明である。
論文 参考訳(メタデータ) (2023-10-19T20:02:40Z) - CMB: A Comprehensive Medical Benchmark in Chinese [67.69800156990952]
そこで我々は,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)を提案する。
伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。
われわれは,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,いくつかの大規模LSMを評価した。
論文 参考訳(メタデータ) (2023-08-17T07:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。