論文の概要: GiusBERTo: A Legal Language Model for Personal Data De-identification in Italian Court of Auditors Decisions
- arxiv url: http://arxiv.org/abs/2406.15032v1
- Date: Fri, 21 Jun 2024 10:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:53:51.448750
- Title: GiusBERTo: A Legal Language Model for Personal Data De-identification in Italian Court of Auditors Decisions
- Title(参考訳): GiusBERTo: イタリアの監査裁判所における個人データ特定のための法的言語モデル
- Authors: Giulio Salierno, Rosamaria Bertè, Luca Attias, Carla Morrone, Dario Pettazzoni, Daniela Battisti,
- Abstract要約: GiusBERToは、イタリアの法律文書における個人データの匿名化に特化した、BERTベースの最初のモデルである。
我々はGiusBERToをホールドアウトテストセットで評価し,97%のトークンレベルの精度を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Natural Language Processing have demonstrated the effectiveness of pretrained language models like BERT for a variety of downstream tasks. We present GiusBERTo, the first BERT-based model specialized for anonymizing personal data in Italian legal documents. GiusBERTo is trained on a large dataset of Court of Auditors decisions to recognize entities to anonymize, including names, dates, locations, while retaining contextual relevance. We evaluate GiusBERTo on a held-out test set and achieve 97% token-level accuracy. GiusBERTo provides the Italian legal community with an accurate and tailored BERT model for de-identification, balancing privacy and data protection.
- Abstract(参考訳): 自然言語処理の最近の進歩は、様々な下流タスクにおいてBERTのような事前訓練された言語モデルの有効性を実証している。
GiusBERToは、イタリアの法律文書における個人データの匿名化に特化した、BERTベースの最初のモデルである。
GiusBERToはCourt of Auditorsの決定の大規模なデータセットに基づいてトレーニングされており、名前、日付、場所など、エンティティを匿名化すると同時に、コンテキスト関連性を保持する。
我々はGiusBERToをホールドアウトテストセットで評価し,97%のトークンレベルの精度を実現した。
GiusBERToは、プライバシとデータ保護のバランスをとるための正確で調整されたBERTモデルを提供する。
関連論文リスト
- PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - E-NER -- An Annotated Named Entity Recognition Corpus of Legal Text [1.6221439565760059]
我々は、米国証券取引委員会(SEC)のEDGARデータセットから入手可能な法律事務所の申請に基づいて、E-NERと呼ばれる公開可能な法的NERデータセットについて説明する。
一般的な英語コーパスであるCoNLL-2003コーパス上で,多数の異なるNERアルゴリズムを訓練した。
論文 参考訳(メタデータ) (2022-12-19T09:03:32Z) - AraLegal-BERT: A pretrained language model for Arabic Legal text [0.399013650624183]
AraLegal-BERTは双方向エンコーダトランスフォーマーベースのモデルで、徹底的にテストされ、慎重に最適化されている。
AraLegal-BERTを微調整し、3つの自然言語理解(NLU)タスクにおいて、アラビア語の3つのBERT変種に対して評価した。
その結果、AraLegal-BERTのベースバージョンは、法典テキストよりも一般的なBERTよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-15T13:08:40Z) - EVI: Multilingual Spoken Dialogue Tasks and Dataset for Knowledge-Based
Enrolment, Verification, and Identification [49.77911492230467]
3つの認証タスクとその評価プロトコルを形式化する。
EVIは、英語、ポーランド語、フランス語で5,506の対話が可能な、難解な多言語データセットである。
論文 参考訳(メタデータ) (2022-04-28T13:39:24Z) - BERT-LID: Leveraging BERT to Improve Spoken Language Identification [12.179375898668614]
言語識別とは、音声セグメントによって伝達される言語の同一性を自動的に判定するタスクである。
中・長期間の発話において高い精度で言語識別が達成されているにもかかわらず、短い発話のパフォーマンスはまだまだ満足できない。
本稿では,BERTに基づく言語識別システム(BERT-LID)を提案する。
論文 参考訳(メタデータ) (2022-03-01T10:01:25Z) - JUSTICE: A Benchmark Dataset for Supreme Court's Judgment Prediction [0.0]
我々は、自然言語処理(NLP)研究やその他のデータ駆動アプリケーションで容易に利用できるように、SCOTUS裁判所の高品質なデータセットを作成することを目指している。
先進的なNLPアルゴリズムを用いて以前の訴訟を分析することにより、訓練されたモデルは裁判所の判断を予測し、分類することができる。
論文 参考訳(メタデータ) (2021-12-06T23:19:08Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Sensitive Data Detection and Classification in Spanish Clinical Text:
Experiments with BERT [0.8379286663107844]
本稿では、BERTに基づくシーケンスラベリングモデルを用いて、スペイン語で匿名化実験を行う。
実験により、汎用ドメイン事前学習を用いた単純なBERTモデルが、ドメイン固有の機能工学を使わずに、非常に競争力のある結果が得られることが示された。
論文 参考訳(メタデータ) (2020-03-06T09:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。