論文の概要: Backdoor Adjustment of Confounding by Provenance for Robust Text
Classification of Multi-institutional Clinical Notes
- arxiv url: http://arxiv.org/abs/2310.02451v1
- Date: Tue, 3 Oct 2023 21:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:21:26.286814
- Title: Backdoor Adjustment of Confounding by Provenance for Robust Text
Classification of Multi-institutional Clinical Notes
- Title(参考訳): 多施設臨床ノートのロバストテキスト分類における評価によるコンファウンディングのバックドア調整
- Authors: Xiruo Ding, Zhecheng Sheng, Meliha Yeti\c{s}gen, Serguei Pakhomov,
Trevor Cohen
- Abstract要約: 薬物乱用に言及した臨床ノートのデータセットにおいて,テキスト分類のためのバックドア調整の有用性について検討した。
以上の結果から, バックドアの調整は, コンバウンディングシフトを効果的に軽減できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 7.82404526462678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing (NLP) methods have been broadly applied to
clinical tasks. Machine learning and deep learning approaches have been used to
improve the performance of clinical NLP. However, these approaches require
sufficiently large datasets for training, and trained models have been shown to
transfer poorly across sites. These issues have led to the promotion of data
collection and integration across different institutions for accurate and
portable models. However, this can introduce a form of bias called confounding
by provenance. When source-specific data distributions differ at deployment,
this may harm model performance. To address this issue, we evaluate the utility
of backdoor adjustment for text classification in a multi-site dataset of
clinical notes annotated for mentions of substance abuse. Using an evaluation
framework devised to measure robustness to distributional shifts, we assess the
utility of backdoor adjustment. Our results indicate that backdoor adjustment
can effectively mitigate for confounding shift.
- Abstract(参考訳): 自然言語処理(nlp)法は臨床に広く適用されてきた。
機械学習と深層学習のアプローチは臨床NLPの性能向上に利用されてきた。
しかし、これらのアプローチではトレーニングに十分な大規模なデータセットが必要であり、トレーニングされたモデルではサイト間での転送が不十分であることが示されている。
これらの問題は、正確でポータブルなモデルのためのさまざまな機関間でのデータ収集と統合の促進につながった。
しかし、これはconfounding by provenanceと呼ばれるバイアスの一形態を導入することができる。
デプロイ時にソース固有のデータ分布が異なる場合、モデルのパフォーマンスに悪影響を及ぼす可能性がある。
本研究では, 薬物乱用に関する注釈付き臨床ノートの多箇所データセットにおいて, テキスト分類におけるバックドア調整の有用性を評価する。
分布シフトに対するロバスト性を測定するために考案された評価フレームワークを用いて,バックドア調整の有用性を評価する。
以上の結果から,バックドアの調整はコンバウンディングシフトを効果的に軽減できることが示された。
関連論文リスト
- Granularity Matters in Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Virtually Objective Quantification of in vitro Wound Healing Scratch Assays with the Segment Anything Model [0.19999259391104385]
細胞生物学において、インビトロ・スクラッチ・アッセイ(in vitro scratch assay)は、傷の閉鎖率を評価するために広く用いられている。
本稿では,対話型ポイントプロンプトに基づくディープ・ファンデーション・モデルであるセグメント・アプライス・モデルを利用する。
結果は、ドメインエキスパートの手作業によるセグメンテーションと比較しても、サーバ内およびサーバ間の変動が非常に少なかった。
論文 参考訳(メタデータ) (2024-07-02T11:45:56Z) - High Dimensional Causal Inference with Variational Backdoor Adjustment [57.31312942774617]
我々は,高次元治療と共同設立者のバックドア調整のための生成的モデリングアプローチを採っている。
半合成X線医療データを含む多種多様な高次元環境における介入可能性の推定が可能となる。
論文 参考訳(メタデータ) (2023-10-09T19:21:41Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via
Optimization Trajectory Distillation [73.83178465971552]
自動医用画像解析の成功は、大規模かつ専門家による注釈付きトレーニングセットに依存する。
非教師なしドメイン適応(UDA)はラベル付きデータ収集の負担を軽減するための有望なアプローチである。
本稿では,2つの技術的課題に新しい視点から対処する統一的手法である最適化トラジェクトリ蒸留を提案する。
論文 参考訳(メタデータ) (2023-07-27T08:58:05Z) - Maximizing Model Generalization for Machine Condition Monitoring with
Self-Supervised Learning and Federated Learning [4.214064911004321]
Deep Learningは、手動で設計された統計的特徴なしで、障害を診断し、生の状態監視データからマシンの健康を評価する。
伝統的な教師付き学習は、目に見えない対象ドメインに一般化するコンパクトで差別的な表現を学ぶのに苦労することがある。
本研究は,対象領域にモデルをコピーするために,ソース領域における特徴一般化の最大化と重み移動によるTLの適用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-27T17:57:54Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Estimating Redundancy in Clinical Text [6.245180523143739]
臨床医は、既存のメモを複製し、それに従って更新することで、新しい文書をポップアップさせる。
情報冗長性の定量化は、臨床物語を扱う革新を評価する上で重要な役割を果たす。
冗長性を測定するための2つの戦略として,情報理論アプローチと語彙論的・意味論的モデルを提示し,評価する。
論文 参考訳(メタデータ) (2021-05-25T11:01:45Z) - The unreasonable effectiveness of Batch-Norm statistics in addressing
catastrophic forgetting across medical institutions [8.244654685687054]
モデル改良と事前学習した知識の保持のトレードオフについて検討する。
本稿では,従来のデータセットのグローバルバッチ正規化統計値を用いて,弾性重み付け(EWC)を適応する,単純で効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T16:57:05Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。