論文の概要: Synthetic Data for Veterinary EHR De-identification: Benefits, Limits, and Safety Trade-offs Under Fixed Compute
- arxiv url: http://arxiv.org/abs/2601.09756v1
- Date: Tue, 13 Jan 2026 19:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.841475
- Title: Synthetic Data for Veterinary EHR De-identification: Benefits, Limits, and Safety Trade-offs Under Fixed Compute
- Title(参考訳): 獣医師の身元特定のための合成データ:固定計算による便益・限界・安全トレードオフ
- Authors: David Brundage,
- Abstract要約: 本研究は,大規模言語モデル(LLM)が生成する合成物語が識別の安全性を向上するか否かを評価する。
10,382枚の合成ノートを,プライバシ保護型「テンプレートオンリー」システムを用いて生成した。
人工的な増強は曝露拡大に有効であるが, 代替的ではなく, 安全クリティカルな獣医の身元特定に有効であると考えられた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Veterinary electronic health records (vEHRs) contain privacy-sensitive identifiers that limit secondary use. While PetEVAL provides a benchmark for veterinary de-identification, the domain remains low-resource. This study evaluates whether large language model (LLM)-generated synthetic narratives improve de-identification safety under distinct training regimes, emphasizing (i) synthetic augmentation and (ii) fixed-budget substitution. We conducted a controlled simulation using a PetEVAL-derived corpus (3,750 holdout/1,249 train). We generated 10,382 synthetic notes using a privacy-preserving "template-only" regime where identifiers were removed prior to LLM prompting. Three transformer backbones (PetBERT, VetBERT, Bio_ClinicalBERT) were trained under varying mixtures. Evaluation prioritized document-level leakage rate (the fraction of documents with at least one missed identifier) as the primary safety outcome. Results show that under fixed-sample substitution, replacing real notes with synthetic ones monotonically increased leakage, indicating synthetic data cannot safely replace real supervision. Under compute-matched training, moderate synthetic mixing matched real-only performance, but high synthetic dominance degraded utility. Conversely, epoch-scaled augmentation improved performance: PetBERT span-overlap F1 increased from 0.831 to 0.850 +/- 0.014, and leakage decreased from 6.32% to 4.02% +/- 0.19%. However, these gains largely reflect increased training exposure rather than intrinsic synthetic data quality. Corpus diagnostics revealed systematic synthetic-real mismatches in note length and label distribution that align with persistent leakage. We conclude that synthetic augmentation is effective for expanding exposure but is complementary, not substitutive, for safety-critical veterinary de-identification.
- Abstract(参考訳): 獣医の電子健康記録(vEHRs)には二次使用を制限するプライバシーに敏感な識別子が含まれている。
PetEVALは獣医師の身元特定のためのベンチマークを提供しているが、ドメインは低リソースのままである。
本研究は,大規模言語モデル(LLM)による合成物語が,異なる訓練体制下での識別の安全性を向上させるか否かを評価し,強調する。
一 合成増補及び増補
(二)固定予算の代替
我々はPetEVAL由来コーパス(3,750ホールドアウト/1,249列車)を用いて制御シミュレーションを行った。
LLMのプロンプト前に識別子を削除した,プライバシ保護型"テンプレートオンリー"システムを用いて,10,382の合成ノートを生成した。
3つのトランスバックボーン (PetBERT, VetBERT, Bio_ClinicalBERT) を様々な混合条件下で訓練した。
文書レベルの漏洩率(少なくとも1つの識別子が欠落した文書の割合)を第一の安全性結果として評価した。
その結果, 固定サンプル置換の下では, 音符を合成音符に置き換えると, 単調に漏れが増加し, 合成データが真の監督を安全に置き換えることができないことがわかった。
計算整合トレーニングでは、適度な合成混合は実時間のみの性能と一致したが、高い合成優位性は低下した。
PetBERTスパンオーバーラップ F1 は 0.831 から 0.850 +/- 0.014 に増加し、リークは 6.32% から 4.02% +/- 0.19% に減少した。
しかし,これらの利得は,本質的な合成データ品質よりもトレーニング露出の増大を反映している。
コーパス診断では、音符の長さとラベルの分布が持続的な漏洩と一致している系統的な合成実ミスマッチが明らかとなった。
人工的な増強は曝露拡大に有効であるが, 代替的ではなく, 安全クリティカルな獣医の身元特定に有効であると考えられた。
関連論文リスト
- Boosting Overlapping Organoid Instance Segmentation Using Pseudo-Label Unmixing and Synthesis-Assisted Learning [17.2312303630893]
オルガノイドはヒト組織のin vitroモデルである。
臓器機能をシミュレートし、薬物反応を正確に評価する能力があるため、医学研究には欠かせない。
正確なオルガノイドのインスタンスセグメンテーションは、それらの動的挙動を定量化するために重要である。
論文 参考訳(メタデータ) (2026-01-10T17:51:09Z) - Unveiling and Bridging the Functional Perception Gap in MLLMs: Atomic Visual Alignment and Hierarchical Evaluation via PET-Bench [48.60251555171943]
MLLM(Multimodal Large Language Models)は、異常検出や解剖学的モダリティのレポート生成などのタスクにおいて、顕著な熟練性を示した。
本研究では, 機能的トレーサの生体分布を, 形態的先行性とは無関係に復号化できない現状の視覚エンコーダについて, 基本的な機能的知覚ギャップを定量化する。
PET-Benchは52,308個の階層型QAペアからなるPET-Benchの最初の大規模機能評価ベンチマークである。
AVAは認知ギャップを効果的に橋渡しし、CoTを幻覚源から頑健な推論ツールに変換し、診断を改善していることを示す。
論文 参考訳(メタデータ) (2026-01-06T05:58:50Z) - One-shot synthesis of rare gastrointestinal lesions improves diagnostic accuracy and clinical training [45.49415063761575]
EndoRareは、単一の参照画像から多種多様な高忠実度病変を合成する、ワンショットでリトレーニング不要な生成フレームワークである。
われわれはこの枠組みを4つの稀な病理から検証した。
これらの結果は, コンピュータ支援診断と臨床教育の両方において, 希少なギャップを埋める実践的でデータ効率のよい方法を確立している。
論文 参考訳(メタデータ) (2025-12-30T15:07:09Z) - Predictive Modeling and Explainable AI for Veterinary Safety Profiles, Residue Assessment, and Health Outcomes Using Real-World Data and Physicochemical Properties [4.53318808068234]
逆事象(AEs)は、予期せぬまたは毒性の運動作用を示し、食物連鎖の違反的残基のリスクを増大させる。
本研究は,米国食品医薬品局(FDA)の獣医学センターからの128万件の報告を用いて,結果の分類(死対回復)を行うための予測的枠組みを紹介する。
論文 参考訳(メタデータ) (2025-10-01T23:34:46Z) - <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs [60.169913160819]
本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。
実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。
根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
論文 参考訳(メタデータ) (2025-09-10T07:48:24Z) - Improving Heart Rejection Detection in XPCI Images Using Synthetic Data Augmentation [0.0]
StyleGANは利用可能な3Rバイオプシーパッチで訓練され、その後、1万のリアルな合成画像を生成するために使用された。
これらは、ResNet-18分類器をバイナリーリジェクション分類のために訓練するための様々な構成において、レジェクション無しのサンプルである実際の0Rサンプルと組み合わせられた。
その結果, 実検体と組み合わせて使用する場合, 合成データにより分類性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-26T09:26:36Z) - SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models [9.340077455871736]
画像認識における長い尾の分布は、いくつかの支配階級間の深刻な不均衡のため、大きな課題となる。
近年,画像分類のための合成データ作成に大規模な生成モデルが用いられている。
本稿では,データ不均衡の影響を解消するために,長い尾のデータセットを補完する合成データを提案する。
論文 参考訳(メタデータ) (2024-08-29T05:33:59Z) - FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning for
Abstractive Summarization [91.46015013816083]
本稿では,FactPEGについて述べる。FactPEGは,事前学習と微調整における現実性の問題に対処する抽象的な要約モデルである。
分析の結果,FactPEGはゼロショットやスプリショットの設定において,本来の事前学習目標よりも現実的であることが示唆された。
論文 参考訳(メタデータ) (2022-05-16T17:39:14Z) - Improved Certified Defenses against Data Poisoning with (Deterministic)
Finite Aggregation [122.83280749890078]
本報告では, 一般中毒に対する予防的対策として, フィニット・アグリゲーション(Finite Aggregation)を提案する。
トレーニングセットを直接非結合部分集合に分割するDPAとは対照的に、我々の方法はまず、トレーニングセットをより小さな非結合部分集合に分割する。
我々は、決定論的および集約的認証された防御設計をブリッジして、我々の方法の代替的な見解を提供する。
論文 参考訳(メタデータ) (2022-02-05T20:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。