論文の概要: DrBenchmark: A Large Language Understanding Evaluation Benchmark for
French Biomedical Domain
- arxiv url: http://arxiv.org/abs/2402.13432v1
- Date: Tue, 20 Feb 2024 23:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:46:48.872838
- Title: DrBenchmark: A Large Language Understanding Evaluation Benchmark for
French Biomedical Domain
- Title(参考訳): DrBenchmark: フランスのバイオメディカルドメインのための大規模言語理解評価ベンチマーク
- Authors: Yanis Labrak, Adrien Bazoge, Oumaima El Khettari, Mickael Rouvier,
Pacome Constant dit Beaufils, Natalia Grabar, Beatrice Daille, Solen Quiniou,
Emmanuel Morin, Pierre-Antoine Gourraud, Richard Dufour
- Abstract要約: 我々はDrBenchmarkと呼ばれるフランスの生物医学言語理解ベンチマークを公開している。
名前付き認識、音声タグ付け、質問回答、意味的テキスト類似性、分類を含む20のタスクを含む。
一般およびバイオメディカル特化データに基づいて8つの最先端の事前訓練マスク付き言語モデル (MLM) を評価し, それらの言語間能力を評価する。
- 参考スコア(独自算出の注目度): 8.246368441549967
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The biomedical domain has sparked a significant interest in the field of
Natural Language Processing (NLP), which has seen substantial advancements with
pre-trained language models (PLMs). However, comparing these models has proven
challenging due to variations in evaluation protocols across different models.
A fair solution is to aggregate diverse downstream tasks into a benchmark,
allowing for the assessment of intrinsic PLMs qualities from various
perspectives. Although still limited to few languages, this initiative has been
undertaken in the biomedical field, notably English and Chinese. This
limitation hampers the evaluation of the latest French biomedical models, as
they are either assessed on a minimal number of tasks with non-standardized
protocols or evaluated using general downstream tasks. To bridge this research
gap and account for the unique sensitivities of French, we present the
first-ever publicly available French biomedical language understanding
benchmark called DrBenchmark. It encompasses 20 diversified tasks, including
named-entity recognition, part-of-speech tagging, question-answering, semantic
textual similarity, and classification. We evaluate 8 state-of-the-art
pre-trained masked language models (MLMs) on general and biomedical-specific
data, as well as English specific MLMs to assess their cross-lingual
capabilities. Our experiments reveal that no single model excels across all
tasks, while generalist models are sometimes still competitive.
- Abstract(参考訳): バイオメディカルドメインは自然言語処理(NLP)の分野に大きな関心を喚起し、プレトレーニング言語モデル(PLM)によって大幅に進歩してきた。
しかし、これらのモデルを比較することは、異なるモデル間の評価プロトコルのばらつきにより困難であることが証明されている。
適切な解決策は、様々な下流タスクをベンチマークに集約し、様々な観点から固有のPLMの品質を評価することである。
まだ少数の言語に限られているが、この取り組みは生物医学分野、特に英語と中国語で行われている。
この制限は、非標準化プロトコルによる最小限のタスクで評価されるか、一般的な下流タスクを用いて評価されるため、最新のフランスのバイオメディカルモデルの評価を妨げている。
この研究ギャップを埋め、フランスの独特の感性を説明するために、DrBenchmarkと呼ばれるフランスの生物医学言語理解ベンチマークを初めて公開する。
名前付き認識、音声タグ付け、質問回答、意味的テキスト類似性、分類を含む20のタスクを含む。
一般およびバイオメディカルなデータに基づいて8つの最先端の事前訓練マスク付き言語モデル (MLM) を評価し, それらの言語間能力を評価する。
我々の実験では、全てのタスクで1つのモデルが排他的でないことが判明した。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - A Benchmark Evaluation of Clinical Named Entity Recognition in French [4.430193084761607]
バイオメディカルモデルであるCamemBERT-bioとDrBERTを評価し,標準フランスのモデルであるCamemBERT,FrauBERT,FrALBERTと比較した。
その結果,CamemBERT-bioはDrBERTを一貫して上回り,FrauBERTは競争性能を示し,FrAlBERTは最も低い炭素プリントを達成することが示唆された。
論文 参考訳(メタデータ) (2024-03-28T07:59:58Z) - BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains [8.448541067852]
大規模言語モデル(LLM)は近年,顕著な汎用性を示している。
健康状況に合わせて様々なオープンソース LLM が利用可能であるにもかかわらず、汎用 LLM を医療分野に適用することは重大な課題である。
我々は、Mistralを基盤モデルとして、バイオメディカルドメインに適したオープンソースのLLMであるBioMistralを紹介した。
論文 参考訳(メタデータ) (2024-02-15T23:39:04Z) - PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。
我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文 参考訳(メタデータ) (2023-10-22T02:20:38Z) - MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark
for Language Model Evaluation [22.986061896641083]
MedEvalは、医療のための言語モデルの開発を促進するために、マルチレベル、マルチタスク、マルチドメインの医療ベンチマークである。
22,779の文と21,228のレポートを収集し、専門家のアノテーションを複数のレベルで提供し、データの詳細な使用可能性を提供します。
論文 参考訳(メタデータ) (2023-10-21T18:59:41Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。