論文の概要: The NLP Sandbox: an efficient model-to-data system to enable federated
and unbiased evaluation of clinical NLP models
- arxiv url: http://arxiv.org/abs/2206.14181v1
- Date: Tue, 28 Jun 2022 17:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 12:37:40.184093
- Title: The NLP Sandbox: an efficient model-to-data system to enable federated
and unbiased evaluation of clinical NLP models
- Title(参考訳): NLP Sandbox:臨床NLPモデルのフェデレーションとアンバイアス評価を可能にする効率的なモデル間データシステム
- Authors: Yao Yan, Thomas Yu, Kathleen Muenzen, Sijia Liu, Connor Boyle, George
Koslowski, Jiaxin Zheng, Nicholas Dobbins, Clement Essien, Hongfang Liu,
Larsson Omberg, Meliha Yestigen, Bradley Taylor, James A Eddy, Justin
Guinney, Sean Mooney, Thomas Schaffter
- Abstract要約: 臨床用テキスト識別のための自然言語処理モデルの評価は,臨床用ノートの入手に頼っている。
NLP Sandboxは、フェデレートされたモデルからデータへのアプローチを採用することで、NLPモデルのデータと評価フレームワークの欠如を軽減するアプローチである。
- 参考スコア(独自算出の注目度): 9.982590068381974
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Objective The evaluation of natural language processing (NLP) models for
clinical text de-identification relies on the availability of clinical notes,
which is often restricted due to privacy concerns. The NLP Sandbox is an
approach for alleviating the lack of data and evaluation frameworks for NLP
models by adopting a federated, model-to-data approach. This enables unbiased
federated model evaluation without the need for sharing sensitive data from
multiple institutions. Materials and Methods We leveraged the Synapse
collaborative framework, containerization software, and OpenAPI generator to
build the NLP Sandbox (nlpsandbox.io). We evaluated two state-of-the-art NLP
de-identification focused annotation models, Philter and NeuroNER, using data
from three institutions. We further validated model performance using data from
an external validation site. Results We demonstrated the usefulness of the NLP
Sandbox through de-identification clinical model evaluation. The external
developer was able to incorporate their model into the NLP Sandbox template and
provide user experience feedback. Discussion We demonstrated the feasibility of
using the NLP Sandbox to conduct a multi-site evaluation of clinical text
de-identification models without the sharing of data. Standardized model and
data schemas enable smooth model transfer and implementation. To generalize the
NLP Sandbox, work is required on the part of data owners and model developers
to develop suitable and standardized schemas and to adapt their data or model
to fit the schemas. Conclusions The NLP Sandbox lowers the barrier to utilizing
clinical data for NLP model evaluation and facilitates federated, multi-site,
unbiased evaluation of NLP models.
- Abstract(参考訳): 目的 臨床テキスト識別のための自然言語処理(nlp)モデルの評価は、プライバシー上の懸念からしばしば制限される臨床ノートの可用性に依存する。
NLP Sandboxは、フェデレートされたモデルからデータへのアプローチを採用することで、NLPモデルのデータと評価フレームワークの欠如を軽減するアプローチである。
これにより、複数の機関から機密データを共有することなく、偏見のないフェデレーションモデルの評価が可能になる。
材料とメソッド Synapseのコラボレーティブフレームワーク、コンテナ化ソフトウェア、OpenAPIジェネレータを活用して、NLP Sandbox(nlpsandbox.io)を構築しました。
我々は3つの機関のデータを用いて2つの最先端NLP非識別アノテーションモデル、PhilterとNeuroNERを評価した。
さらに,外部検証サイトからのデータを用いてモデル性能を検証した。
結果】NLP Sandboxの有用性について,非同定臨床モデルによる検討を行った。
外部開発者はモデルをNLP Sandboxテンプレートに組み込んで、ユーザエクスペリエンスのフィードバックを提供することができた。
考察では,NLP Sandboxを用いた臨床テキスト識別モデルの多地点評価の実現可能性について検討した。
標準化されたモデルとデータスキーマは、スムーズなモデル転送と実装を可能にする。
NLP Sandboxを一般化するには、データ所有者とモデル開発者が適切な標準化されたスキーマを開発し、スキーマに適合するようにデータやモデルを適用する必要がある。
結論 NLP SandboxはNLPモデル評価に臨床データを活用する障壁を低くし、NLPモデルのフェデレーション、マルチサイト、アンバイアスド評価を促進する。
関連論文リスト
- A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:41:30Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - An Optimism-based Approach to Online Evaluation of Generative Models [23.91197677628145]
利用可能なモデル群間の標準評価スコアを最大化する生成モデルを見つけるためのオンライン評価フレームワークを提案する。
具体的には、Fr'echet Inception Distance(FID)とInception Score(IS)のメトリクスに基づいて、生成モデルのオンライン評価を行う。
論文 参考訳(メタデータ) (2024-06-11T16:57:48Z) - Multi-Site Clinical Federated Learning using Recursive and Attentive
Models and NVFlare [13.176351544342735]
本稿では、データプライバシと規制コンプライアンスの課題に対処する統合フレームワークを開発する。
これには、データのプライバシと規制コンプライアンスの課題に対処し、高い精度を維持し、提案されたアプローチの有効性を実証する統合フレームワークの開発が含まれている。
論文 参考訳(メタデータ) (2023-06-28T17:00:32Z) - Large Language Models as Annotators: Enhancing Generalization of NLP
Models at Minimal Cost [6.662800021628275]
入力のアノテートやNLPモデルの一般化のための大言語モデル(LLM)について検討する。
ベースモデルと微調整NLPモデルとの予測スコアの差に基づくサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-27T19:29:55Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - On the Evaluation of NLP-based Models for Software Engineering [0.8122270502556374]
我々は,NLPに基づくSE問題モデルがどのように評価されているのかを研究者らにより検討する。
この結果から,これらのモデルの評価には一貫性があり,広く受け入れられているプロトコルが存在しないことが示唆された。
論文 参考訳(メタデータ) (2022-03-31T16:42:19Z) - Dynaboard: An Evaluation-As-A-Service Platform for Holistic
Next-Generation Benchmarking [41.99715850562528]
ベンチマークをホスティングし、全体モデル比較を行うための評価・アズ・ア・サービスフレームワークであるDynaboardを紹介した。
我々のプラットフォームは、単一のデータセットで自己報告されたメトリクスや予測に頼るのではなく、NLPモデルを直接評価します。
論文 参考訳(メタデータ) (2021-05-21T01:17:52Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。