論文の概要: Automatic Anonymization of Swiss Federal Supreme Court Rulings
- arxiv url: http://arxiv.org/abs/2310.04632v2
- Date: Tue, 31 Oct 2023 22:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:51:02.990891
- Title: Automatic Anonymization of Swiss Federal Supreme Court Rulings
- Title(参考訳): スイス連邦最高裁判所規則の自動匿名化
- Authors: Joel Niklaus, Robin Mami\'e, Matthias St\"urmer, Daniel Brunner,
Marcel Gygli
- Abstract要約: 匿名化対象のエンティティを付加した大規模なデータセットを用いて,既存の匿名化ソフトウェアを強化する。
その結果,ドメイン内データを用いて事前トレーニングを行うことで,既存モデルに比べてF1スコアが5%以上向上することがわかった。
- 参考スコア(独自算出の注目度): 2.1963472367016426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Releasing court decisions to the public relies on proper anonymization to
protect all involved parties, where necessary. The Swiss Federal Supreme Court
relies on an existing system that combines different traditional computational
methods with human experts. In this work, we enhance the existing anonymization
software using a large dataset annotated with entities to be anonymized. We
compared BERT-based models with models pre-trained on in-domain data. Our
results show that using in-domain data to pre-train the models further improves
the F1-score by more than 5\% compared to existing models. Our work
demonstrates that combining existing anonymization methods, such as regular
expressions, with machine learning can further reduce manual labor and enhance
automatic suggestions.
- Abstract(参考訳): 裁判所の決定を一般大衆に公開するには、必要な場合にはすべての関係者を保護するための適切な匿名化が必要となる。
スイス連邦最高裁判所は、従来の計算手法を人間の専門家と組み合わせた既存のシステムに依存している。
本研究では,エンティティをアノテートした大規模データセットを用いて,既存の匿名化ソフトウェアを強化する。
BERTベースのモデルとドメイン内データに基づく事前学習モデルを比較した。
以上の結果から,モデルの事前学習にドメイン内データを用いることにより,既存のモデルと比較して,f1-scoreがさらに5\%向上することが示された。
本研究は,正規表現などの既存の匿名化手法と機械学習を組み合わせることで,手作業の軽減と自動提案の強化を実証する。
関連論文リスト
- Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - SEBA: Strong Evaluation of Biometric Anonymizations [3.18294468240512]
生体匿名化の強力な評価のためのフレームワークSEBAを紹介する。
使用が容易で拡張が容易なソフトウェアフレームワークで、最先端の方法論を組み合わせて実装する。
この議論の一環として、プライバシーとユーティリティのトレードオフをより簡単に評価できる新しい指標を紹介し、議論する。
論文 参考訳(メタデータ) (2024-07-09T08:20:03Z) - Federated Face Forgery Detection Learning with Personalized Representation [63.90408023506508]
ディープジェネレータ技術は、区別がつかない高品質のフェイクビデオを制作し、深刻な社会的脅威をもたらす可能性がある。
従来の偽造検出手法は、データを直接集中的に訓練する。
本稿では,個人化表現を用いた新しいフェデレーション顔偽造検出学習を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:20:30Z) - Privacy- and Utility-Preserving NLP with Anonymized Data: A case study
of Pseudonymization [22.84767881115746]
私たちの研究は、オリジナルデータと匿名データのギャップに関する重要な洞察を提供します。
コード、偽名付きデータセット、ダウンストリームモデルを公開しています。
論文 参考訳(メタデータ) (2023-06-08T21:06:19Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - LDFA: Latent Diffusion Face Anonymization for Self-driving Applications [3.501026362812183]
我々は、ITSの文脈において、顔の匿名化のための新しいディープラーニングベースのパイプラインを導入する。
本稿では,顔検出モデルと潜時拡散モデルを含む2段階の手法を提案する。
実験の結果,我々のパイプラインは,分割のためのデータの匿名化に適しており,最近のGAN法と互換性があることがわかった。
論文 参考訳(メタデータ) (2023-02-17T15:14:00Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Anonymizing Machine Learning Models [0.0]
匿名化されたデータは、EU一般データ保護規則などの規則で定められた義務から除外される。
そこで本研究では,学習モデル内に符号化された知識を用いて,より優れたモデル精度を実現する手法を提案する。
また、当社のアプローチには、差分プライバシーに基づくアプローチとして、メンバーシップアタックを防止できる機能があることも示しています。
論文 参考訳(メタデータ) (2020-07-26T09:29:03Z) - Sensitive Data Detection and Classification in Spanish Clinical Text:
Experiments with BERT [0.8379286663107844]
本稿では、BERTに基づくシーケンスラベリングモデルを用いて、スペイン語で匿名化実験を行う。
実験により、汎用ドメイン事前学習を用いた単純なBERTモデルが、ドメイン固有の機能工学を使わずに、非常に競争力のある結果が得られることが示された。
論文 参考訳(メタデータ) (2020-03-06T09:46:51Z) - Intra-Camera Supervised Person Re-Identification [87.88852321309433]
本稿では,カメラごとの個人識別アノテーションに基づく新しい人物識別パラダイムを提案する。
これにより、最も時間がかかり、面倒なカメラ間IDラベリングプロセスがなくなる。
MATE(Multi-tAsk mulTi-labEl)Deep Learning method for intra-Camera Supervised (ICS) person re-id。
論文 参考訳(メタデータ) (2020-02-12T15:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。