論文の概要: A Japanese Language Model and Three New Evaluation Benchmarks for Pharmaceutical NLP
- arxiv url: http://arxiv.org/abs/2505.16661v1
- Date: Thu, 22 May 2025 13:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.322578
- Title: A Japanese Language Model and Three New Evaluation Benchmarks for Pharmaceutical NLP
- Title(参考訳): 医薬品NLPのための日本語モデルと3つの評価基準
- Authors: Issey Sukeda, Takuro Fujii, Kosei Buma, Shunsuke Sasaki, Shinnosuke Ono,
- Abstract要約: 本稿では,20億の日本製薬トークンと80億のイギリス製バイオメディカルトークンの継続事前学習を通じて開発された,医薬分野のドメイン固有言語モデルを提案する。
本稿では,国家薬剤師免許試験に基づくYakugakuQA,言語横断同義語と用語正規化を試験するNayoseQA,ペア文間の整合性推論を評価するSogoCheckの3つの新しいベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 0.6990493129893112
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a Japanese domain-specific language model for the pharmaceutical field, developed through continual pretraining on 2 billion Japanese pharmaceutical tokens and 8 billion English biomedical tokens. To enable rigorous evaluation, we introduce three new benchmarks: YakugakuQA, based on national pharmacist licensing exams; NayoseQA, which tests cross-lingual synonym and terminology normalization; and SogoCheck, a novel task designed to assess consistency reasoning between paired statements. We evaluate our model against both open-source medical LLMs and commercial models, including GPT-4o. Results show that our domain-specific model outperforms existing open models and achieves competitive performance with commercial ones, particularly on terminology-heavy and knowledge-based tasks. Interestingly, even GPT-4o performs poorly on SogoCheck, suggesting that cross-sentence consistency reasoning remains an open challenge. Our benchmark suite offers a broader diagnostic lens for pharmaceutical NLP, covering factual recall, lexical variation, and logical consistency. This work demonstrates the feasibility of building practical, secure, and cost-effective language models for Japanese domain-specific applications, and provides reusable evaluation resources for future research in pharmaceutical and healthcare NLP. Our model, codes, and datasets are released at https://github.com/EQUES-Inc/pharma-LLM-eval.
- Abstract(参考訳): 本稿では,20億の日本製薬トークンと80億のイギリス製バイオメディカルトークンの継続事前学習を通じて開発された,医薬分野のドメイン固有言語モデルを提案する。
厳格な評価を可能にするため,国産薬剤師免許試験に基づくヤクククカ,言語横断同義語と用語正規化を検査するナヨスカ,対文間の整合性推論を評価するための新しいタスクであるソゴチェックの3つのベンチマークを新たに導入した。
GPT-4o を含むオープンソース医療用 LLM と商用用モデルの両方に対して,本モデルを評価した。
その結果、ドメイン固有モデルは既存のオープンモデルよりも優れており、特に用語の重みや知識に基づくタスクにおいて、商用モデルと競合する性能を発揮することがわかった。
興味深いことに、GPT-4oでさえSogoCheckではうまく動作せず、クロス文一貫性推論が依然としてオープンな課題であることを示している。
我々のベンチマークスイートは、現実のリコール、語彙の変化、論理的一貫性をカバーし、医薬NLPのためのより広範な診断レンズを提供する。
本研究は,日本におけるドメイン固有アプリケーションのための実用的でセキュアで費用対効果の高い言語モデルの構築の実現可能性を示し,今後の医薬品・医療NLP研究のための再利用可能な評価資源を提供する。
我々のモデル、コード、データセットはhttps://github.com/EQUES-Inc/pharma-LLM-eval.comでリリースされます。
関連論文リスト
- MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks [7.822971505079421]
本研究は、7つのアラビア医療タスクからなる新しいベンチマークデータセットであるMedArabiQを紹介する。
筆者らはまず,過去の医学試験と公開データセットを用いてデータセットを構築した。
次に、バイアス緩和を含む様々なLCM機能を評価するために、異なる修正を導入した。
論文 参考訳(メタデータ) (2025-05-06T11:07:26Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - DrBenchmark: A Large Language Understanding Evaluation Benchmark for
French Biomedical Domain [8.246368441549967]
我々はDrBenchmarkと呼ばれるフランスの生物医学言語理解ベンチマークを公開している。
名前付き認識、音声タグ付け、質問回答、意味的テキスト類似性、分類を含む20のタスクを含む。
一般およびバイオメディカル特化データに基づいて8つの最先端の事前訓練マスク付き言語モデル (MLM) を評価し, それらの言語間能力を評価する。
論文 参考訳(メタデータ) (2024-02-20T23:54:02Z) - Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams [5.399800035598185]
本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
論文 参考訳(メタデータ) (2023-12-01T13:22:35Z) - HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs [61.41790586411816]
HuatuoGPT-IIは、いくつかのベンチマークで、中国の医学領域における最先端のパフォーマンスを示している。
さらに、ChatGPTやGPT-4といったプロプライエタリなモデルよりも、特に中国伝統医学において優れています。
論文 参考訳(メタデータ) (2023-11-16T10:56:24Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。