論文の概要: BlaBla: Linguistic Feature Extraction for Clinical Analysis in Multiple
Languages
- arxiv url: http://arxiv.org/abs/2005.10219v1
- Date: Wed, 20 May 2020 17:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 04:38:23.689816
- Title: BlaBla: Linguistic Feature Extraction for Clinical Analysis in Multiple
Languages
- Title(参考訳): BlaBla: 複数の言語の臨床解析のための言語的特徴抽出
- Authors: Abhishek Shivkumar, Jack Weston, Raphael Lenain, Emil Fristed
- Abstract要約: BlaBlaは、臨床的妥当性が証明された言語的特徴を抽出するオープンソースのPythonライブラリである。
我々はBlaBlaのアーキテクチャと12の疾患にまたがる特徴の臨床的検証について述べる。
- 参考スコア(独自算出の注目度): 11.527421282223948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce BlaBla, an open-source Python library for extracting linguistic
features with proven clinical relevance to neurological and psychiatric
diseases across many languages. BlaBla is a unifying framework for accelerating
and simplifying clinical linguistic research. The library is built on
state-of-the-art NLP frameworks and supports multithreaded/GPU-enabled feature
extraction via both native Python calls and a command line interface. We
describe BlaBla's architecture and clinical validation of its features across
12 diseases. We further demonstrate the application of BlaBla to a task
visualizing and classifying language disorders in three languages on real
clinical data from the AphasiaBank dataset. We make the codebase freely
available to researchers with the hope of providing a consistent,
well-validated foundation for the next generation of clinical linguistic
research.
- Abstract(参考訳): 複数の言語にまたがる神経疾患や精神疾患の臨床的関連性が証明された言語特徴を抽出するための,オープンソースのpythonライブラリblablaを紹介する。
BlaBlaは、臨床言語研究を加速し、単純化するための統一的なフレームワークである。
このライブラリは最先端のNLPフレームワーク上に構築されており、ネイティブPython呼び出しとコマンドラインインターフェースの両方を介してマルチスレッド/GPU対応の機能抽出をサポートする。
我々はBlaBlaのアーキテクチャと12の疾患にまたがる特徴の臨床的検証について述べる。
さらに,AphasiaBankデータセットから得られた実際の臨床データに基づいて,言語障害の可視化と分類を行うタスクへのBlaBlaの適用を実証する。
私たちは、次世代の臨床言語研究のための一貫性のある、十分に検証された基礎を提供することを期待して、コードベースを研究者に無料で提供します。
関連論文リスト
- Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data
Generation with Large Language Models [48.07083163501746]
臨床自然言語処理には、ドメイン固有の課題に対処できる方法が必要である。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset [0.0]
文境界検出(SBD)は自然言語処理の基礎的構成要素の一つである。
我々は6言語で130万以上の注釈文からなる多言語法的データセットをキュレートした。
CRF, BiLSTM-CRF, トランスフォーマーに基づく単言語モデルと多言語モデルの訓練, 試験を行い, 最先端性能を実証した。
論文 参考訳(メタデータ) (2023-05-02T05:52:03Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - HealthPrompt: A Zero-shot Learning Paradigm for Clinical Natural
Language Processing [3.762895631262445]
われわれはHealthPromptという新しいプロンプトベースのNLPフレームワークを開発した。
本研究は,6種類のPLMを用いたHealthPromptの詳細な分析を行った。
本実験は,臨床テキストのコンテキストを効果的に把握し,トレーニングデータなしで極めて良好に動作できることを証明した。
論文 参考訳(メタデータ) (2022-03-09T21:44:28Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。