論文の概要: Anonymity at Risk? Assessing Re-Identification Capabilities of Large
Language Models
- arxiv url: http://arxiv.org/abs/2308.11103v1
- Date: Tue, 22 Aug 2023 00:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:38:29.097843
- Title: Anonymity at Risk? Assessing Re-Identification Capabilities of Large
Language Models
- Title(参考訳): リスクの匿名性?
大規模言語モデルの再同定能力の評価
- Authors: Alex Nyffenegger, Matthias St\"urmer, Joel Niklaus
- Abstract要約: スイス連邦最高裁判所は、LLMが裁判所の判決で個人を再識別する可能性について検討する。
我々はスイス連邦最高裁判所の実際の法的データを用いて概念実証を構築した。
モデルサイズ,入力長,命令チューニングなど,再同定に影響を及ぼす要因を分析した。
- 参考スコア(独自算出の注目度): 2.6966307157568417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anonymity of both natural and legal persons in court rulings is a critical
aspect of privacy protection in the European Union and Switzerland. With the
advent of LLMs, concerns about large-scale re-identification of anonymized
persons are growing. In accordance with the Federal Supreme Court of
Switzerland, we explore the potential of LLMs to re-identify individuals in
court rulings by constructing a proof-of-concept using actual legal data from
the Swiss federal supreme court. Following the initial experiment, we
constructed an anonymized Wikipedia dataset as a more rigorous testing ground
to further investigate the findings. With the introduction and application of
the new task of re-identifying people in texts, we also introduce new metrics
to measure performance. We systematically analyze the factors that influence
successful re-identifications, identifying model size, input length, and
instruction tuning among the most critical determinants. Despite high
re-identification rates on Wikipedia, even the best LLMs struggled with court
decisions. The complexity is attributed to the lack of test datasets, the
necessity for substantial training resources, and data sparsity in the
information used for re-identification. In conclusion, this study demonstrates
that re-identification using LLMs may not be feasible for now, but as the
proof-of-concept on Wikipedia showed, it might become possible in the future.
We hope that our system can help enhance the confidence in the security of
anonymized decisions, thus leading to the courts being more confident to
publish decisions.
- Abstract(参考訳): 裁判所判決における自然と法的双方の匿名性は、欧州連合とスイスにおけるプライバシー保護の重要な側面である。
LLMの出現に伴い、匿名化者の大規模再識別への懸念が高まっている。
スイス連邦最高裁判所に従って、スイス連邦最高裁判所の実際の法的データを用いて概念実証を構築することにより、裁判所の判決において個人を再識別するLLMの可能性を探る。
実験の結果,匿名化されたWikipediaデータセットをより厳密な試験場として構築し,さらなる調査を行った。
テキスト中の人物を識別する新しいタスクの導入と適用により、パフォーマンスを測定するための新しい指標も導入する。
モデルサイズ, 入力長, 命令のチューニングを最も重要な決定要因として同定し, 再同定に影響を及ぼす要因を系統的に分析する。
ウィキペディアの再識別率が高いにもかかわらず、最高のLCMでさえ裁判所の判断に苦しんだ。
この複雑さは、テストデータセットの欠如、十分なトレーニングリソースの必要性、再識別に使用される情報のスパーシティに起因する。
結論として,本研究では,LLMを用いた再同定は現時点では不可能であるが,ウィキペディアにおける概念実証が示すように,将来的には可能となる可能性がある。
当社のシステムは、匿名化された決定のセキュリティに対する信頼性を高めるのに役立ち、裁判所が決定を公表する自信を増すことを願っています。
関連論文リスト
- AIDBench: A benchmark for evaluating the authorship identification capability of large language models [14.866356328321126]
我々は、大きな言語モデル(LLM)が匿名テキストの作者を特定するのに役立つ、特定のプライバシーリスクに焦点を当てる。
AIDBenchは、メール、ブログ、レビュー、記事、研究論文など、いくつかの著者識別データセットを組み込んだ新しいベンチマークである。
AIDBenchによる我々の実験は、LLMがランダムな確率よりもはるかに高い確率で著者を推測できることを示し、これらの強力なモデルによって引き起こされる新たなプライバシーリスクを明らかにした。
論文 参考訳(メタデータ) (2024-11-20T11:41:08Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Low-Resource Court Judgment Summarization for Common Law Systems [32.13166048504629]
CLSumは,多審理法裁判所判決文書を要約する最初のデータセットである。
これは、データ拡張、要約生成、評価において、大規模言語モデル(LLM)を採用する最初の裁判所判決要約作業である。
論文 参考訳(メタデータ) (2024-03-07T12:47:42Z) - Large Language Models are Advanced Anonymizers [13.900633576526863]
敵の匿名化が、現在の業界レベルの匿名化を、その結果のユーティリティとプライバシの点で上回っていることを示す。
まず,敵対的LLM推論の面における匿名性を評価するための新しい設定を提案する。
論文 参考訳(メタデータ) (2024-02-21T14:44:00Z) - Interpretable Long-Form Legal Question Answering with
Retrieval-Augmented Large Language Models [10.834755282333589]
長文の法的問合せデータセットは、専門家によるフランス語の法的質問1,868件からなる。
実験結果から,自動評価指標について有望な性能を示した。
LLeQAは、専門家によって注釈付けされた唯一の包括的なロングフォームLQAデータセットの1つであり、重要な現実世界の問題を解決するために研究を加速するだけでなく、特殊な領域におけるNLPモデルを評価するための厳密なベンチマークとしても機能する可能性がある。
論文 参考訳(メタデータ) (2023-09-29T08:23:19Z) - FedSOV: Federated Model Secure Ownership Verification with Unforgeable
Signature [60.99054146321459]
フェデレートラーニングにより、複数のパーティがプライベートデータを公開せずにグローバルモデルを学ぶことができる。
本稿では,FedSOVという暗号署名に基づくフェデレート学習モデルのオーナシップ検証手法を提案する。
論文 参考訳(メタデータ) (2023-05-10T12:10:02Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - Reinforcement Learning on Encrypted Data [58.39270571778521]
本稿では,DQNエージェントが,離散的かつ連続的な状態空間を持つ環境でどのように動作するかを予備的,実験的に検討する。
その結果,非決定論的暗号が存在する場合でも,エージェントは依然として小さな状態空間で学習することができるが,より複雑な環境では性能が低下することがわかった。
論文 参考訳(メタデータ) (2021-09-16T21:59:37Z) - Unsupervised Person Re-Identification: A Systematic Survey of Challenges
and Solutions [64.68497473454816]
教師なしのRe-IDは、Re-ID担当者のスケーラビリティ問題に対処する可能性に注目が集まっている。
教師なしのRe-IDは、主に人物の特徴学習を監督するアイデンティティラベルが欠如しているため、難しい。
本調査では,課題と解決の観点から,教師なしのRe-IDに関する最近の研究を概観する。
論文 参考訳(メタデータ) (2021-09-01T00:01:35Z) - How important are faces for person re-identification? [14.718372669984364]
顔検出およびぼかしアルゴリズムを適用し、複数の人気人物再識別データセットの匿名化バージョンを作成する。
我々は,この匿名化が標準メトリクスを用いた再識別性能に与える影響を評価する。
論文 参考訳(メタデータ) (2020-10-13T11:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。