論文の概要: CHBench: A Chinese Dataset for Evaluating Health in Large Language Models
- arxiv url: http://arxiv.org/abs/2409.15766v1
- Date: Tue, 24 Sep 2024 05:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:51:16.973296
- Title: CHBench: A Chinese Dataset for Evaluating Health in Large Language Models
- Title(参考訳): CHBench: 大規模言語モデルにおける健康評価のための中国のデータセット
- Authors: Chenlu Guo, Nuo Xu, Yi Chang, Yuan Wu,
- Abstract要約: 中国初の総合保健関連ベンチマークであるCHBenchを紹介する。
CHBenchには、メンタルヘルスに関連する6,493のエントリと、身体健康に焦点を当てた2,999のエントリが含まれている。
このデータセットは、正確な健康関連情報を理解し、生成する中国のLCMの能力を評価する基盤となる。
- 参考スコア(独自算出の注目度): 19.209493319541693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of large language models (LLMs), assessing their performance on health-related inquiries has become increasingly essential. It is critical that these models provide accurate and trustworthy health information, as their application in real-world contexts--where misinformation can have serious consequences for individuals seeking medical advice and support--depends on their reliability. In this work, we present CHBench, the first comprehensive Chinese Health-related Benchmark designed to evaluate LLMs' capabilities in understanding physical and mental health across diverse scenarios. CHBench includes 6,493 entries related to mental health and 2,999 entries focused on physical health, covering a broad spectrum of topics. This dataset serves as a foundation for evaluating Chinese LLMs' capacity to comprehend and generate accurate health-related information. Our extensive evaluations of four popular Chinese LLMs demonstrate that there remains considerable room for improvement in their understanding of health-related information. The code is available at https://github.com/TracyGuo2001/CHBench.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展に伴い、健康関連質問に対する評価がますます重要になっている。
これらのモデルが正確で信頼性の高い健康情報を提供することは、現実の文脈での応用として重要であり、医療アドバイスや支援を求める個人にとって、誤った情報が深刻な結果をもたらす可能性がある。
本研究では,中国初の総合保健関連ベンチマークであるCHBenchについて紹介する。
CHBenchには、メンタルヘルスに関連する6,493のエントリと、さまざまなトピックをカバーする物理的健康に焦点を当てた2,999のエントリが含まれている。
このデータセットは、正確な健康関連情報を理解し、生成する中国のLCMの能力を評価する基盤となる。
中国で普及している4つのLCMの広範な評価は、健康関連情報の理解に十分な改善の余地があることを証明している。
コードはhttps://github.com/TracyGuo2001/CHBenchで公開されている。
関連論文リスト
- The Role of Language Models in Modern Healthcare: A Comprehensive Review [2.048226951354646]
医療における大規模言語モデル(LLM)の適用は注目されている。
本稿では,言語モデルの初期から現在までの軌跡を概観する。
論文 参考訳(メタデータ) (2024-09-25T12:15:15Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - HRDE: Retrieval-Augmented Large Language Models for Chinese Health Rumor Detection and Explainability [6.800433977880405]
本稿では、一般的な健康関連質問のWebスクレイピングを通じて、12万件の健康関連噂(HealthRCN)を含むデータセットを構築する。
我々は,中国の健康噂の検出と説明可能性 (HRDE) のための検索強化された大規模言語モデルを提案する。
論文 参考訳(メタデータ) (2024-06-30T11:27:50Z) - Potential Renovation of Information Search Process with the Power of Large Language Model for Healthcare [0.0]
本稿では,6段階情報探索モデルの開発と,LLM(Large Language Model)を利用した医療用情報探索プロセス(ISP)の適用による拡張について検討する。
論文 参考訳(メタデータ) (2024-06-29T07:00:47Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Better to Ask in English: Cross-Lingual Evaluation of Large Language
Models for Healthcare Queries [31.82249599013959]
大規模言語モデル(LLM)は、一般大衆が情報にアクセスし消費する方法を変えつつある。
LLMは印象的な言語理解と生成能力を示しているが、その安全性に関する懸念は依然として最重要である。
これらのLLMが非英語の文脈でどのように機能するかは、まだ不明である。
論文 参考訳(メタデータ) (2023-10-19T20:02:40Z) - CMB: A Comprehensive Medical Benchmark in Chinese [67.69800156990952]
そこで我々は,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)を提案する。
伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。
われわれは,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,いくつかの大規模LSMを評価した。
論文 参考訳(メタデータ) (2023-08-17T07:51:23Z) - A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises [52.31710895034573]
この研究は、医療知識グラフ(HKG)の最初の包括的なレビューを提供する。
HKG構築のためのパイプラインと重要なテクニックを要約し、一般的な利用方法も示す。
アプリケーションレベルでは、さまざまなヘルスドメインにわたるHKGの正常な統合を検討します。
論文 参考訳(メタデータ) (2023-06-07T21:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。