論文の概要: Eir: Thai Medical Large Language Models
- arxiv url: http://arxiv.org/abs/2409.08523v2
- Date: Mon, 16 Sep 2024 10:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 12:21:17.102361
- Title: Eir: Thai Medical Large Language Models
- Title(参考訳): Eir: タイの医療用大規模言語モデル
- Authors: Yutthakorn Thiprak, Rungtam Ngodngamthaweesuk, Songtam Ngodngamtaweesuk,
- Abstract要約: Eir-8Bは、タイ語での医療タスクの処理精度を高めるために設計された80億のパラメータを持つ大規模な言語モデルである。
人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。
モデルは病院の内部ネットワーク内に展開され、高いセキュリティと高速な処理速度が保証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Eir-8B, a large language model with 8 billion parameters, specifically designed to enhance the accuracy of handling medical tasks in the Thai language. This model focuses on providing clear and easy-to-understand answers for both healthcare professionals and patients, thereby improving the efficiency of diagnosis and treatment processes. Human evaluation was conducted to ensure that the model adheres to care standards and provides unbiased answers. To prioritize data security, the model is deployed within the hospital's internal network, ensuring both high security and faster processing speeds. The internal API connection is secured with encryption and strict authentication measures to prevent data leaks and unauthorized access. We evaluated several open-source large language models with 8 billion parameters on four medical benchmarks: MedQA, MedMCQA, PubMedQA, and the medical subset of MMLU. The best-performing baselines were used to develop Eir-8B. Our evaluation employed multiple questioning strategies, including zero-shot, few-shot, chain-of-thought reasoning, and ensemble/self-consistency voting methods. Our model outperformed commercially available Thai-language large language models by more than 10%. In addition, we developed enhanced model testing tailored for clinical use in Thai across 18 clinical tasks, where our model exceeded GPT-4o performance by more than 11%.
- Abstract(参考訳): 本稿では,80億のパラメータを持つ大規模言語モデルであるEir-8Bについて述べる。
このモデルは、医療専門家と患者の両方に明確で分かりやすい回答を提供することに焦点を当て、診断と治療プロセスの効率を向上させる。
人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。
データセキュリティを優先するために、このモデルは病院の内部ネットワークにデプロイされ、高いセキュリティと高速な処理速度が保証される。
内部API接続は暗号化と厳格な認証手段で保護されており、データ漏洩や不正アクセスを防止する。
MedQA, MedMCQA, PubMedQA, そしてMMLUの医療サブセットである。
最高の性能のベースラインはEir-8Bの開発に使用された。
評価では,ゼロショット,少数ショット,チェーンオブ思考推論,アンサンブル/自己整合性投票法など,複数の質問戦略を採用した。
我々のモデルは、タイ語で利用可能な大言語モデルを10%以上上回りました。
さらに, タイにおける臨床使用に適した改良型モデルテストを開発し, GPT-4o の成績を11%以上上回った。
関連論文リスト
- JRadiEvo: A Japanese Radiology Report Generation Model Enhanced by Evolutionary Optimization of Model Merging [0.0]
我々は、公開データから50の翻訳サンプルのみを用いて、X線画像から正確な日本語レポートを生成するモデルを作成する。
80億のパラメータしか持たないこの比較的コンパクトな基礎モデルは、病院内でローカルに展開できる。
論文 参考訳(メタデータ) (2024-11-15T04:16:50Z) - Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation [1.922611370494431]
本研究は,ポルトガル語における医療エージェントとしての大規模言語モデル(LLM)の性能を評価する。
InternLM2モデルは、当初医療データに関するトレーニングを受けており、全体的なパフォーマンスが最高であった。
ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れる現象を示した。
論文 参考訳(メタデータ) (2024-09-30T19:10:03Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。
我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。
Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文 参考訳(メタデータ) (2024-03-30T14:09:00Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Almanac: Retrieval-Augmented Language Models for Clinical Medicine [1.5505279143287174]
医療ガイドラインと治療勧告の検索機能を備えた大規模言語モデルフレームワークであるAlmanacを開発した。
5人の医師と医師のパネルで評価された新しい臨床シナリオのデータセットの性能は、事実性の顕著な増加を示している。
論文 参考訳(メタデータ) (2023-03-01T02:30:11Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。