論文の概要: BioUNER: A Benchmark Dataset for Clinical Urdu Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2604.02904v1
- Date: Fri, 03 Apr 2026 09:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.425401
- Title: BioUNER: A Benchmark Dataset for Clinical Urdu Named Entity Recognition
- Title(参考訳): BioUNER: エンティティ認識のためのベンチマークデータセット
- Authors: Wazir Ali, Adeeb Noor, Sanaullah Mahar, Alia, Muhammad Mazhar Younas,
- Abstract要約: バイオメディカルUrdu Named Entity Recognition (BioUNER) のための金標準ベンチマークデータセットを提案する。
BioUNERは、オンラインのUrduニュースポータル、医療処方薬、病院の健康ブログやウェブサイトから健康関連の記事をクロールすることによって開発されている。
アノテーション間の合意スコア0.78を達成し、データセットをゴールド標準品質として検証した。
- 参考スコア(独自算出の注目度): 0.8341988468339112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article, we present a gold-standard benchmark dataset for Biomedical Urdu Named Entity Recognition (BioUNER), developed by crawling health-related articles from online Urdu news portals, medical prescriptions, and hospital health blogs and websites. After preprocessing, three native annotators with familiarity in the medical domain participated in the annotation process using the Doccano text annotation tool and annotated 153K tokens. Following annotation, the proposed BioiUNER dataset was evaluated both intrinsically and extrinsically. An inter-annotator agreement score of 0.78 was achieved, thereby validating the dataset as gold-standard quality. To demonstrate the utility and benchmarking capability of the dataset, we evaluated several machine learning and deep learning models, including Support Vector Machines (SVM), Long Short-Term Memory networks (LSTM), Multilingual BERT (mBERT), and XLM-RoBERTa. The gold-standard BioUNER dataset serves as a reliable benchmark and a valuable addition to Urdu language processing resources.
- Abstract(参考訳): 本稿では、オンラインUrduニュースポータル、医療処方薬、病院の健康ブログやウェブサイトから健康関連記事をクロールして開発されたバイオメディカルUrdu Named Entity Recognition(BioUNER)のゴールドスタンダードベンチマークデータセットについて紹介する。
前処理後,医学領域に親しみのある3つのネイティブアノテーションがドッカノのテキストアノテーションツールと注釈付き153Kトークンを使用してアノテーションプロセスに参加した。
アノテーションに従って,提案したbioiUNERデータセットを本質的および外生的に評価した。
アノテーション間の合意スコア0.78を達成し、データセットをゴールド標準品質として検証した。
本研究では,SVM(Support Vector Machines),LSTM(Long Short-Term Memory Network),Multilingual BERT(mBERT),XLM-RoBERTa(XLM-RoBERTa)など,機械学習およびディープラーニングモデルの評価を行った。
金標準のBioUNERデータセットは、信頼できるベンチマークと、Urdu言語処理リソースへの貴重な追加として機能する。
関連論文リスト
- A Unified Biomedical Named Entity Recognition Framework with Large Language Models [44.92744341698289]
大規模言語モデル(LLM)に基づくバイオメディカル名前付きエンティティ認識(BioNER)フレームワークを提案する。
まず、テキスト生成タスクとしてBioNERを再構成し、フラットなエンティティとネストされたエンティティの両方を共同で扱うシンボリックタグ戦略を設計する。
複数の中国語と英語のデータセットでバイリンガル共同微調整を行う。
論文 参考訳(メタデータ) (2025-10-10T01:33:54Z) - Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - Benchingmaking Large Langage Models in Biomedical Triple Extraction [13.022101126299269]
本研究は主に文レベルのバイオメディカルトリプル抽出に焦点を当てている。
高品質なバイオメディカルトリプル抽出データセットが存在しないことは、堅牢なトリプル抽出システムの開発の進歩を妨げている。
GITは、専門家によるバイオメディカルトリプル抽出データセットである。
論文 参考訳(メタデータ) (2023-10-27T20:15:23Z) - BigBIO: A Framework for Data-Centric Biomedical Natural Language
Processing [13.30221348538759]
バイオメディカルNLPデータセット126以上のコミュニティライブラリであるBigBIOを紹介する。
BigBIOは、データセットとそのメタデータへのプログラムアクセスを通じて、再現可能なメタデータキュレーションを容易にする。
本稿では,タスクスキーマ,データ監査,コントリビューションガイドライン,および2つの実証的ユースケースの概要について論じる。
論文 参考訳(メタデータ) (2022-06-30T07:15:45Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - RuBioRoBERTa: a pre-trained biomedical language model for Russian
language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。
これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2022-04-08T09:18:59Z) - Benchmarking for Biomedical Natural Language Processing Tasks with a
Domain Specific ALBERT [9.8215089151757]
A Lite Bidirectional Representations from Transformers (ALBERT) のドメイン固有の適応であるBioALBERTを提案する。
バイオメディカルおよびPubMed Centralおよび臨床コーパスをトレーニングし、20のベンチマークデータセットで6つのタスクを微調整する。
これは、20のベンチマークデータセットのうち17の領域で、新たな最先端技術を表している。
論文 参考訳(メタデータ) (2021-07-09T11:47:13Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。