論文の概要: ClinicalEncoder26AM: A Multlilingual Diagnosable ColBERT Model; Evidences from the MultiClinNER Shared Task
- arxiv url: http://arxiv.org/abs/2605.28521v1
- Date: Wed, 27 May 2026 14:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.106604
- Title: ClinicalEncoder26AM: A Multlilingual Diagnosable ColBERT Model; Evidences from the MultiClinNER Shared Task
- Title(参考訳): ClinicalEncoder26AM:多言語診断可能なColBERTモデル : MultiClinNER共有タスクからの証拠
- Authors: François Remy,
- Abstract要約: ClinicalEncoder26AMは、臨床およびバイオメディカルテキストのための多言語診断可能なColBERTである。
患者症状, 障害, 手術スパンに対するBIOタグを微調整し, マルチClinNER共有タスクにおけるモデルの評価を行った。
- 参考スコア(独自算出の注目度): 1.6904475483445454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ClinicalEncoder26AM is a multilingual Diagnosable ColBERT for clinical and biomedical texts, which aligns at multiple levels its token-level semantic with ClinicalMap25, a clinical latent space inspired by BioLORD-2023 and enriched with synthetic and annotated supervision. The post-training recipe builds upon BGE-M3, and combines synthetic clinical notes, patient--doctor conversations, and annotated resources such as MedMentions, while considering both named-entity-level and sentence-level representations in a multi-adapter distillation, along with a ColBERT-style retrieval objective. In this system demonstration paper, we evaluate the model in the MultiClinNER shared task by finetuning it as a BIO tagger for patient symptoms, disorders, and procedure spans, using a lightweight two-layer CNN head to improve local boundary detection. The resulting system remains simple, processes most documents in a single 8192-token window, and achieves state-of-the-art multilingual entity recall, while achieving Top 5 overall across all entity types and languages in Character-weighted F1 scores. Training curves further show that ClinicalEncoder26AM is markedly more data-efficient than the base M3 model, supporting the usefulness of its clinical post-training for downstream information extraction. The model can be downloaded on https://huggingface.co/Parallia/ClinicalEncoder26AM-Diagnosable-Colbert-L2-for-multilingual-medical- texts
- Abstract(参考訳): ClinicalEncoder26AMは、臨床および生医学のテキストのための多言語診断可能なColBERTであり、トークンレベルのセマンティクスを、BiologicalLORD-2023にインスパイアされた臨床潜伏空間であるCricerMap25と複数レベルで一致させる。
ポストトレーニングレシピはBGE-M3に基づいて構築され、ColBERTスタイルの検索目的とともに、マルチアダプター蒸留における名前付きエンタリティレベルおよび文レベルの表現の両方を考慮しつつ、合成臨床ノート、患者と医師の会話、メドミリオンのような注釈付きリソースを組み合わせる。
本稿では, 患者症状, 障害, 処置範囲のBIOタグとして微調整し, 局所境界検出を改善するために, 軽量2層CNNヘッドを用いてMultiClinNER共有タスクのモデルを評価する。
結果のシステムは単純であり、ほとんどのドキュメントを8192のウィンドウで処理し、最先端の多言語エンティティリコールを実現し、文字重み付きF1スコアのすべてのエンティティタイプと言語で総合的にトップ5を達成している。
トレーニング曲線は,M3モデルよりもクリニカルエンコーダ26AMの方が有意にデータ効率が高く,下流情報抽出における臨床後トレーニングの有用性が示唆された。
モデルはhttps://huggingface.co/Parallia/ClinicalEncoder26AM-Diagnosable-Colbert-L2-for-multilingual-medical- textsでダウンロードできる。
関連論文リスト
- Automated ICD Classification of Psychiatric Diagnoses: From Classical NLP to Large Language Models [67.51123543731806]
メンタルヘルスは世界的な優先事項となり、臨床診断のコーディングにおける管理上の負担が大きくなった。
本研究では、自然言語処理(NLP)と機械学習(ML)技術を用いて、フリーテキスト記述を国際疾患分類(ICD)にマッピングすることで、精神医学的診断分析の自動化を提案する。
論文 参考訳(メタデータ) (2026-05-20T13:26:05Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文 参考訳(メタデータ) (2024-04-09T15:04:27Z) - SoftTiger: A Clinical Foundation Model for Healthcare Workflows [5.181665205189493]
医療基盤モデルとして設計された臨床用大規模言語モデル(CLaM)であるSoftTigerを紹介する。
我々は,3つのサブタスク,すなわち国際患者要約,臨床印象,医療的出会いのデータを収集し,注釈する。
公立および認証臨床データを用いて,最先端のLCMの微調整を指導した。
論文 参考訳(メタデータ) (2024-03-01T04:39:16Z) - Neural Machine Translation of Clinical Text: An Empirical Investigation
into Multilingual Pre-Trained Language Models and Transfer-Learning [6.822926897514793]
1)臨床症例(CC),2)臨床用語(CT),3)オントロジ概念(OC)の3つのサブタスクの実験結果
ClinSpEn-2022では,英語とスペイン語の臨床領域データの共有タスクにおいて,トップレベルのパフォーマンスを達成した。
WMT21fbモデルを用いて,新しい言語空間をスペイン語で表現する手法について検討した。
論文 参考訳(メタデータ) (2023-12-12T13:26:42Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。