論文の概要: Grandma Karl is 27 years old -- research agenda for pseudonymization of
research data
- arxiv url: http://arxiv.org/abs/2308.16109v1
- Date: Wed, 30 Aug 2023 16:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 12:53:38.646549
- Title: Grandma Karl is 27 years old -- research agenda for pseudonymization of
research data
- Title(参考訳): カールおばあちゃんは27歳。研究データの匿名化研究アジェンダ
- Authors: Elena Volodina (University of Gothenburg), Simon Dobnik (University of
Gothenburg), Therese Lindstr\"om Tiedemann (University of Helsinki), Xuan-Son
Vu (Ume{\aa} university)
- Abstract要約: 一般保護規則は、研究データへのオープンアクセスを確保するソリューションとして偽名を提案する。
本稿では, 研究データの操作に利用する前に, 仮称化のアプローチについて概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accessibility of research data is critical for advances in many research
fields, but textual data often cannot be shared due to the personal and
sensitive information which it contains, e.g names or political opinions.
General Data Protection Regulation (GDPR) suggests pseudonymization as a
solution to secure open access to research data, but we need to learn more
about pseudonymization as an approach before adopting it for manipulation of
research data. This paper outlines a research agenda within pseudonymization,
namely need of studies into the effects of pseudonymization on unstructured
data in relation to e.g. readability and language assessment, as well as the
effectiveness of pseudonymization as a way of protecting writer identity, while
also exploring different ways of developing context-sensitive algorithms for
detection, labelling and replacement of personal information in unstructured
data. The recently granted project on pseudonymization Grandma Karl is 27 years
old addresses exactly those challenges.
- Abstract(参考訳): 研究データのアクセシビリティは、多くの研究分野において重要であるが、名前や政治的意見などを含む個人的および機密性の高い情報のために、テキストデータは共有できないことが多い。
一般データ保護規則(GDPR)は、研究データへのオープンアクセスを確保するソリューションとして偽名を提案するが、研究データの操作に採用する前に、アプローチとして偽名についてもっと学ぶ必要がある。
本論文は、匿名化における研究課題について概説し、例えば、読みやすさや言語アセスメントなどの非構造化データに対する擬似化の効果についての研究や、著者のアイデンティティを保護する手段としての擬似化の有効性について述べるとともに、非構造化データにおける個人情報の検出、ラベル付け、置換のための文脈依存アルゴリズムの開発方法を探る。
最近承認された匿名化プロジェクトであるGrandma Karl氏は、その課題に正確に対処する27歳である。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Synthetic Census Data Generation via Multidimensional Multiset Sum [7.900694093691988]
我々は、Censusの統計データのみから合成マイクロデータを生成するツールを提供する。
我々は,本手法が実際にうまく機能していることを示し,その性能を説明する理論的議論を行う。
論文 参考訳(メタデータ) (2024-04-15T19:06:37Z) - A Survey of Privacy-Preserving Model Explanations: Privacy Risks, Attacks, and Countermeasures [50.987594546912725]
AIのプライバシと説明可能性に関する研究が増えているにもかかわらず、プライバシを保存するモデル説明にはほとんど注意が払われていない。
本稿では,モデル説明に対するプライバシ攻撃とその対策に関する,最初の徹底的な調査を紹介する。
論文 参考訳(メタデータ) (2024-03-31T12:44:48Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Balancing Privacy and Progress in Artificial Intelligence: Anonymization
in Histopathology for Biomedical Research and Education [1.8078387709049526]
医療データを“可能な限りオープン”に転送することは、患者のプライバシにリスクをもたらす。
既存の規制は、再識別リスクを避けるため、医療データを「必要に応じてクローズド」し続けるよう推進している。
本稿では,医療データ共有に関する法的規制と用語について考察する。
論文 参考訳(メタデータ) (2023-07-18T16:53:07Z) - Privacy- and Utility-Preserving NLP with Anonymized Data: A case study
of Pseudonymization [22.84767881115746]
私たちの研究は、オリジナルデータと匿名データのギャップに関する重要な洞察を提供します。
コード、偽名付きデータセット、ダウンストリームモデルを公開しています。
論文 参考訳(メタデータ) (2023-06-08T21:06:19Z) - Should I disclose my dataset? Caveats between reproducibility and
individual data rights [5.816090284071069]
裁判所文書のデジタル利用は研究者の可能性を増大させる。
しかし、個人データ保護法は、データ露出に制限を課している。
我々は,この問題に関する法的・倫理的考察と研究者のガイドラインを提示する。
論文 参考訳(メタデータ) (2022-11-01T14:42:11Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Librarian-in-the-Loop: A Natural Language Processing Paradigm for
Detecting Informal Mentions of Research Data in Academic Literature [1.4190701053683017]
本研究では,研究データセットに対する非公式な言及を識別するヒューマンタスクを支援する自然言語処理パラダイムを提案する。
非公式なデータ発見の作業は現在、大学間政治社会研究コンソーシアム (Inter-University Consortium for Political and Social Research) の図書館員とそのスタッフによって行われている。
論文 参考訳(メタデータ) (2022-03-10T02:11:30Z) - Deep Graph Learning for Anomalous Citation Detection [55.81334139806342]
本稿では,新たな深層グラフ学習モデルであるGLAD(Graph Learning for Anomaly Detection)を提案する。
GLADフレームワーク内ではCPU(Citation PUrpose)と呼ばれるアルゴリズムが提案され,引用テキストに基づく引用の目的が明らかになった。
論文 参考訳(メタデータ) (2022-02-23T09:05:28Z) - Yes-Yes-Yes: Donation-based Peer Reviewing Data Collection for ACL
Rolling Review and Beyond [58.71736531356398]
本稿では、ピアレビューデータについて詳細な議論を行い、ピアレビューデータ収集のための倫理的・法的デシダータの概要を述べるとともに、最初の継続的な寄付ベースのデータ収集ワークフローを提案する。
本稿では、ACL Rolling Reviewにおいて、このワークフローの現在進行中の実装について報告し、新たに収集したデータから得られた最初の洞察を提供する。
論文 参考訳(メタデータ) (2022-01-27T11:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。