論文の概要: MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers
- arxiv url: http://arxiv.org/abs/2603.08879v2
- Date: Wed, 11 Mar 2026 10:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.252426
- Title: MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers
- Title(参考訳): MultiGraSCCo: 個人識別器の注釈付き多言語匿名化ベンチマーク
- Authors: Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller,
- Abstract要約: 私たちは10言語で多言語匿名化ベンチマークを作成します。
2,500以上の個人情報のアノテーションを用いたベンチマークは、多くのアプリケーションで使用できます。
- 参考スコア(独自算出の注目度): 7.23434530131568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accessing sensitive patient data for machine learning is challenging due to privacy concerns. Datasets with annotations of personally identifiable information are crucial for developing and testing anonymization systems to enable safe data sharing that complies with privacy regulations. Since accessing real patient data is a bottleneck, synthetic data offers an efficient solution for data scarcity, bypassing privacy regulations that apply to real data. Moreover, neural machine translation can help to create high-quality data for low-resource languages by translating validated real or synthetic data from a high-resource language. In this work, we create a multilingual anonymization benchmark in ten languages, using a machine translation methodology that preserves the original annotations and renders names of cities and people in a culturally and contextually appropriate form in each target language. Our evaluation study with medical professionals confirms the quality of the translations, both in general and with respect to the translation and adaptation of personal information. Our benchmark with over 2,500 annotations of personal information can be used in many applications, including training annotators, validating annotations across institutions without legal complications, and helping improve the performance of automatic personal information detection. We make our benchmark and annotation guidelines available for further research.
- Abstract(参考訳): プライバシの懸念から、機械学習のためにセンシティブな患者データにアクセスすることは難しい。
個人識別可能な情報のアノテーションを持つデータセットは、プライバシー規則に準拠した安全なデータ共有を可能にする匿名化システムの開発とテストに不可欠である。
実際の患者データにアクセスすることはボトルネックであるため、合成データはデータ不足に対する効率的な解決策を提供し、実際のデータに適用するプライバシー規制を回避します。
さらに、ニューラルネットワーク翻訳は、検証済みの実データや合成データを高リソース言語から翻訳することで、低リソース言語のための高品質なデータを作成するのに役立つ。
本研究では,10言語で多言語匿名化ベンチマークを作成し,本来のアノテーションを保存した機械翻訳手法を用いて,各言語で文化的に,文脈的に適切な形で都市や人々の名前を描画する。
医療専門家による評価研究は、一般の翻訳の質と、個人情報の翻訳と適応の両方について確認する。
2500以上の個人情報のアノテーションを用いたベンチマークは、アノテータのトレーニング、法的な問題のない機関間のアノテーションの検証、自動個人情報検出の性能向上など、多くのアプリケーションで利用することができる。
さらなる研究のために、ベンチマークとアノテーションガイドラインを公開しています。
関連論文リスト
- Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - Sensitive Data Detection and Classification in Spanish Clinical Text:
Experiments with BERT [0.8379286663107844]
本稿では、BERTに基づくシーケンスラベリングモデルを用いて、スペイン語で匿名化実験を行う。
実験により、汎用ドメイン事前学習を用いた単純なBERTモデルが、ドメイン固有の機能工学を使わずに、非常に競争力のある結果が得られることが示された。
論文 参考訳(メタデータ) (2020-03-06T09:46:51Z) - Comparing Rule-based, Feature-based and Deep Neural Methods for
De-identification of Dutch Medical Records [4.339510167603376]
オランダの医療機関9施設と3つのドメインのデータをサンプリングし,1260人の医療記録からなる多様なデータセットを構築した。
言語とドメイン間での3つの非識別手法の一般化性をテストする。
論文 参考訳(メタデータ) (2020-01-16T09:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。