Fugu-MT 論文翻訳(概要): The NLP Sandbox: an efficient model-to-data system to enable federated and unbiased evaluation of clinical NLP models

論文の概要: The NLP Sandbox: an efficient model-to-data system to enable federated and unbiased evaluation of clinical NLP models

arxiv url: http://arxiv.org/abs/2206.14181v1
Date: Tue, 28 Jun 2022 17:47:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-29 12:37:40.184093
Title: The NLP Sandbox: an efficient model-to-data system to enable federated and unbiased evaluation of clinical NLP models
Title（参考訳）: NLP Sandbox:臨床NLPモデルのフェデレーションとアンバイアス評価を可能にする効率的なモデル間データシステム
Authors: Yao Yan, Thomas Yu, Kathleen Muenzen, Sijia Liu, Connor Boyle, George Koslowski, Jiaxin Zheng, Nicholas Dobbins, Clement Essien, Hongfang Liu, Larsson Omberg, Meliha Yestigen, Bradley Taylor, James A Eddy, Justin Guinney, Sean Mooney, Thomas Schaffter
Abstract要約: 臨床用テキスト識別のための自然言語処理モデルの評価は,臨床用ノートの入手に頼っている。 NLP Sandboxは、フェデレートされたモデルからデータへのアプローチを採用することで、NLPモデルのデータと評価フレームワークの欠如を軽減するアプローチである。
参考スコア（独自算出の注目度）: 9.982590068381974
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Objective The evaluation of natural language processing (NLP) models for clinical text de-identification relies on the availability of clinical notes, which is often restricted due to privacy concerns. The NLP Sandbox is an approach for alleviating the lack of data and evaluation frameworks for NLP models by adopting a federated, model-to-data approach. This enables unbiased federated model evaluation without the need for sharing sensitive data from multiple institutions. Materials and Methods We leveraged the Synapse collaborative framework, containerization software, and OpenAPI generator to build the NLP Sandbox (nlpsandbox.io). We evaluated two state-of-the-art NLP de-identification focused annotation models, Philter and NeuroNER, using data from three institutions. We further validated model performance using data from an external validation site. Results We demonstrated the usefulness of the NLP Sandbox through de-identification clinical model evaluation. The external developer was able to incorporate their model into the NLP Sandbox template and provide user experience feedback. Discussion We demonstrated the feasibility of using the NLP Sandbox to conduct a multi-site evaluation of clinical text de-identification models without the sharing of data. Standardized model and data schemas enable smooth model transfer and implementation. To generalize the NLP Sandbox, work is required on the part of data owners and model developers to develop suitable and standardized schemas and to adapt their data or model to fit the schemas. Conclusions The NLP Sandbox lowers the barrier to utilizing clinical data for NLP model evaluation and facilitates federated, multi-site, unbiased evaluation of NLP models.
Abstract（参考訳）: 目的臨床テキスト識別のための自然言語処理(nlp)モデルの評価は、プライバシー上の懸念からしばしば制限される臨床ノートの可用性に依存する。 NLP Sandboxは、フェデレートされたモデルからデータへのアプローチを採用することで、NLPモデルのデータと評価フレームワークの欠如を軽減するアプローチである。これにより、複数の機関から機密データを共有することなく、偏見のないフェデレーションモデルの評価が可能になる。材料とメソッド Synapseのコラボレーティブフレームワーク、コンテナ化ソフトウェア、OpenAPIジェネレータを活用して、NLP Sandbox(nlpsandbox.io)を構築しました。我々は3つの機関のデータを用いて2つの最先端NLP非識別アノテーションモデル、PhilterとNeuroNERを評価した。さらに,外部検証サイトからのデータを用いてモデル性能を検証した。結果】NLP Sandboxの有用性について,非同定臨床モデルによる検討を行った。外部開発者はモデルをNLP Sandboxテンプレートに組み込んで、ユーザエクスペリエンスのフィードバックを提供することができた。考察では,NLP Sandboxを用いた臨床テキスト識別モデルの多地点評価の実現可能性について検討した。標準化されたモデルとデータスキーマは、スムーズなモデル転送と実装を可能にする。 NLP Sandboxを一般化するには、データ所有者とモデル開発者が適切な標準化されたスキーマを開発し、スキーマに適合するようにデータやモデルを適用する必要がある。結論 NLP SandboxはNLPモデル評価に臨床データを活用する障壁を低くし、NLPモデルのフェデレーション、マルチサイト、アンバイアスド評価を促進する。

関連論文リスト

EvalxNLP: A Framework for Benchmarking Post-Hoc Explainability Methods on NLP Models [10.052306316269837]
EvalxNLPは、トランスフォーマーベースのNLPモデルの最先端機能属性メソッドをベンチマークするためのPythonフレームワークである。 EvalxNLPは、説明可能なAI(XAI)文学から広く認識されている8つの説明可能性技術を統合する。
論文参考訳（メタデータ） (2025-05-02T13:00:05Z)
A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳（メタデータ） (2024-12-24T12:54:19Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
An Optimism-based Approach to Online Evaluation of Generative Models [23.91197677628145]
利用可能なモデル群間の標準評価スコアを最大化する生成モデルを見つけるためのオンライン評価フレームワークを提案する。具体的には、Fr'echet Inception Distance(FID)とInception Score(IS)のメトリクスに基づいて、生成モデルのオンライン評価を行う。
論文参考訳（メタデータ） (2024-06-11T16:57:48Z)
On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文参考訳（メタデータ） (2023-10-10T13:01:38Z)
Multi-Site Clinical Federated Learning using Recursive and Attentive Models and NVFlare [13.176351544342735]
本稿では、データプライバシと規制コンプライアンスの課題に対処する統合フレームワークを開発する。これには、データのプライバシと規制コンプライアンスの課題に対処し、高い精度を維持し、提案されたアプローチの有効性を実証する統合フレームワークの開発が含まれている。
論文参考訳（メタデータ） (2023-06-28T17:00:32Z)
Large Language Models as Annotators: Enhancing Generalization of NLP Models at Minimal Cost [6.662800021628275]
入力のアノテートやNLPモデルの一般化のための大言語モデル(LLM)について検討する。ベースモデルと微調整NLPモデルとの予測スコアの差に基づくサンプリング戦略を提案する。
論文参考訳（メタデータ） (2023-06-27T19:29:55Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文参考訳（メタデータ） (2022-06-19T08:55:07Z)
On the Evaluation of NLP-based Models for Software Engineering [0.8122270502556374]
我々は,NLPに基づくSE問題モデルがどのように評価されているのかを研究者らにより検討する。この結果から,これらのモデルの評価には一貫性があり,広く受け入れられているプロトコルが存在しないことが示唆された。
論文参考訳（メタデータ） (2022-03-31T16:42:19Z)
Dynaboard: An Evaluation-As-A-Service Platform for Holistic Next-Generation Benchmarking [41.99715850562528]
ベンチマークをホスティングし、全体モデル比較を行うための評価・アズ・ア・サービスフレームワークであるDynaboardを紹介した。我々のプラットフォームは、単一のデータセットで自己報告されたメトリクスや予測に頼るのではなく、NLPモデルを直接評価します。
論文参考訳（メタデータ） (2021-05-21T01:17:52Z)
Reliable Evaluations for Natural Language Inference based on a Unified Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。 14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文参考訳（メタデータ） (2020-10-15T11:50:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。