論文の概要: Towards Automatic Comparison of Data Privacy Documents: A Preliminary
Experiment on GDPR-like Laws
- arxiv url: http://arxiv.org/abs/2105.10117v1
- Date: Fri, 21 May 2021 03:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:21:43.302626
- Title: Towards Automatic Comparison of Data Privacy Documents: A Preliminary
Experiment on GDPR-like Laws
- Title(参考訳): データプライバシ文書の自動比較に向けて:GDPRライクな法則に関する予備実験
- Authors: Kornraphop Kawintiranon and Yaguang Liu
- Abstract要約: 一般データ保護規則(NLP)は多くの国で保護のための標準法となっている。
12カ国で類似性のような規制が採用されているが、違いを評価するのに時間がかかり、法律の専門家による手作業が必要になる。
本稿では,この問題に対処するための自然言語処理(NLP)アプローチについて検討する。
- 参考スコア(独自算出の注目度): 1.3537117504260623
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: General Data Protection Regulation (GDPR) becomes a standard law for data
protection in many countries. Currently, twelve countries adopt the regulation
and establish their GDPR-like regulation. However, to evaluate the differences
and similarities of these GDPR-like regulations is time-consuming and needs a
lot of manual effort from legal experts. Moreover, GDPR-like regulations from
different countries are written in their languages leading to a more difficult
task since legal experts who know both languages are essential. In this paper,
we investigate a simple natural language processing (NLP) approach to tackle
the problem. We first extract chunks of information from GDPR-like documents
and form structured data from natural language. Next, we use NLP methods to
compare documents to measure their similarity. Finally, we manually label a
small set of data to evaluate our approach. The empirical result shows that the
BERT model with cosine similarity outperforms other baselines. Our data and
code are publicly available.
- Abstract(参考訳): 一般データ保護規則(GDPR)は多くの国でデータ保護の標準法となっている。
現在、12カ国がこの規制を採用し、GDPRライクな規制を定めている。
しかし、これらのGDPRライクな規制の違いと類似性を評価するには、時間がかかり、法の専門家による多くの手作業が必要である。
さらに、各国のGDPRライクな規制はそれぞれの言語で書かれており、両国の言語を知る法律の専門家が不可欠であるため、より困難な課題となっている。
本稿では,この問題に対処するための自然言語処理(NLP)アプローチについて検討する。
まずGDPRのような文書から大量の情報を抽出し、自然言語から構造化データを生成する。
次に、文書の比較にnlp法を用いて類似度を測定した。
最後に、我々のアプローチを評価するために、手動で小さなデータセットをラベル付けします。
実験結果から,コサイン類似性を持つBERTモデルは,他のベースラインよりも優れていることが示された。
私たちのデータとコードは公開されています。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Demystifying Legalese: An Automated Approach for Summarizing and Analyzing Overlaps in Privacy Policies and Terms of Service [0.6240153531166704]
我々の研究は、このような文書に自動でアクセス可能な要約とスコアを提供する言語モデルを開発することで、この問題を軽減することを目指している。
我々はデータセットのトレーニング中にトランスフォーマーベースのモデルと従来のモデルを比較し、RoBERTaは0.74F1スコアで全体的なパフォーマンスを改善した。
論文 参考訳(メタデータ) (2024-04-17T19:53:59Z) - Towards an Enforceable GDPR Specification [49.1574468325115]
プライバシ・バイ・デザイン(PbD)は、EUなどの現代的なプライバシー規制によって規定されている。
PbDを実現する1つの新しい技術は強制(RE)である
法律規定の正式な仕様を作成するための一連の要件と反復的な方法論を提示する。
論文 参考訳(メタデータ) (2024-02-27T09:38:51Z) - Identification of Regulatory Requirements Relevant to Business
Processes: A Comparative Study on Generative AI, Embedding-based Ranking,
Crowd and Expert-driven Methods [10.899912290518648]
この研究は、法的およびドメインの専門家が関連する要件を評価するのにどのように役立つかを調べる。
我々は,組込み型NLPランキング法,GPT-4を用いた生成AI法,クラウドソーシング手法を,専門家によるラベル作成の純粋手作業手法と比較した。
BPMN2.0プロセスの両方に対してゴールドスタンダードが作成され、複数の規制文書から現実の要求にマッチします。
論文 参考訳(メタデータ) (2024-01-02T12:08:31Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Analysing similarities between legal court documents using natural
language processing approaches based on Transformers [0.0]
本研究の目的は、推論グループで達成できる司法文書間の類似度を検出することである。
ブラジルの司法制度における法的手続のケーススタディに、トランスフォーマーアーキテクチャに基づく6つのNLP技術を適用している。
論文 参考訳(メタデータ) (2022-04-14T18:25:56Z) - Regulatory Compliance through Doc2Doc Information Retrieval: A case
study in EU/UK legislation where text similarity has limitations [6.40476282000118]
REG-IRは文書間情報検索の応用である。
領域内分類タスクにおけるBERTモデルの微調整は、IRにとって最良の表現であることを示す。
また,矛盾する監督,すなわち類似のクエリ文書対と反対のラベルの組み合わせにより,神経再ランク付けが過小評価されることを示した。
論文 参考訳(メタデータ) (2021-01-26T11:38:15Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。