論文の概要: Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks
- arxiv url: http://arxiv.org/abs/2406.12066v2
- Date: Wed, 19 Jun 2024 03:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 11:58:33.099349
- Title: Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks
- Title(参考訳): バイオメディカルベンチマークにおける薬物名と言語モデル
- Authors: Jack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman,
- Abstract要約: 我々はRABBITSという新しいデータセットを作成し、ブランド名とジェネリックドラッグ名を取り替えた後、医療ベンチマークのパフォーマンス差を評価する。
MedQA と MedMCQA のオープンソース LLM と API ベースの LLM を比較し,一貫した性能低下が 1-10% に及んでいることを明らかにした。
- 参考スコア(独自算出の注目度): 10.423634924466416
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical knowledge is context-dependent and requires consistent reasoning across various natural language expressions of semantically equivalent phrases. This is particularly crucial for drug names, where patients often use brand names like Advil or Tylenol instead of their generic equivalents. To study this, we create a new robustness dataset, RABBITS, to evaluate performance differences on medical benchmarks after swapping brand and generic drug names using physician expert annotations. We assess both open-source and API-based LLMs on MedQA and MedMCQA, revealing a consistent performance drop ranging from 1-10\%. Furthermore, we identify a potential source of this fragility as the contamination of test data in widely used pre-training datasets. All code is accessible at https://github.com/BittermanLab/RABBITS, and a HuggingFace leaderboard is available at https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
- Abstract(参考訳): 医学知識は文脈に依存しており、意味論的に等価なフレーズの様々な自然言語表現に対して一貫した推論を必要とする。
これは薬名にとって特に重要であり、患者は一般的な等価品の代わりにAdvilやTylenolといったブランド名を使うことが多い。
そこで本研究では,医用医用アノテーションを用いて医用ベンチマークの性能差を評価するために,新しい頑健性データセットであるRABBITSを作成した。
MedQA と MedMCQA のオープンソース LLM と API ベースの LLM を比較し,一貫した性能低下を 1-10 % から明らかにした。
さらに、この脆弱性の潜在的な源泉を、広く使われている事前学習データセットにおけるテストデータの汚染として同定する。
すべてのコードはhttps://github.com/BittermanLab/RABBITSでアクセスでき、HuggingFaceのリーダーボードはhttps://huggingface.co/spaces/AIM-Harvard/rabbits- Leaderboardで利用できる。
関連論文リスト
- INSIGHTBUDDY-AI: Medication Extraction and Entity Linking using Large Language Models and Ensemble Learning [6.849511893206566]
医療用NLP研究において, 医療用NLPの抽出とマイニングが重要な役割を担っている。
本研究では,薬品のテキストマイニング作業における現状のLCMとその関連属性,例えば投与量,経路,強度,副作用について検討する。
アンサンブル学習の結果,個々の微調整ベースモデルBERT, RoBERTa, RoBERTa-L, BioBERT, BioClinicalBERT, BioMedRoBERTa, ClinicalBERT, PubMedBERTよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-28T22:06:06Z) - "Hey..! This medicine made me sick": Sentiment Analysis of User-Generated Drug Reviews using Machine Learning Techniques [2.2874754079405535]
本研究は、特定の薬物に関するユーザレビューを、ポジティブ、ネガティブ、中立などの異なるクラスに分類する薬物レビュー分類システムを提案する。
収集されたデータは手動でラベル付けされ、ラベルが正しいことを保証するために手動で検証される。
論文 参考訳(メタデータ) (2024-04-09T08:42:34Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for
AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise
Annotations [90.27736364704108]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるTarmOODを提案する。
DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。
我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-24T12:32:48Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - PharmKE: Knowledge Extraction Platform for Pharmaceutical Texts using
Transfer Learning [0.0]
PharmKEは、医薬品のセマンティック分析を徹底するために、いくつかの段階を通じてディープラーニングを適用するテキスト分析プラットフォームです。
この方法論は、正確なラベル付きトレーニングとテストデータセットの作成に使用され、カスタムエンティティラベリングタスクのモデルトレーニングに使用されます。
得られた結果は、同じデータセットで訓練された微調整BERTおよびBioBERTモデルと比較されます。
論文 参考訳(メタデータ) (2021-02-25T19:36:35Z) - Towards User Friendly Medication Mapping Using Entity-Boosted Two-Tower
Neural Network [12.982185912745564]
薬名推論は、ユーザフレンドリーな医薬品名をフリーフォームテキストから正規化された医薬品リストのコンセプトにマッピングするタスクである。
これは、医療専門家による医療用語の使用の違いと、一般市民からのユーザー会話の相違が原因である。
我々は,医学的推論モデル (MIM) を,最先端の結果を達成するために提案する。
論文 参考訳(メタデータ) (2020-06-17T18:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。