論文の概要: "hasSignification()": une nouvelle fonction de distance pour soutenir la
d\'etection de donn\'ees personnelles
- arxiv url: http://arxiv.org/abs/2206.06836v1
- Date: Tue, 14 Jun 2022 13:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-06-15 15:01:31.883522
- Title: "hasSignification()": une nouvelle fonction de distance pour soutenir la
d\'etection de donn\'ees personnelles
- Title(参考訳): "has signification()": une nouvelle fonction de distance pour soutenir la d'etection de donn\'ees personnelles
- Authors: Amine Mrabet, Ali Hassan, Patrice Darmon (Umanis)
- Abstract要約: この文脈における個人データの保護には、データ発見のための自動分析が必要である。
より良い知識基盤を持つためには、名前が意味をなさない属性を保存すべきではありません。
本稿では,属性の名前に意味があるかどうかを確認するために,この名前と辞書の単語間の距離を計算する手法を提案する。
- 参考スコア(独自算出の注目度): 0.15469452301122172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today with Big Data and data lakes, we are faced of a mass of data that is
very difficult to manage it manually. The protection of personal data in this
context requires an automatic analysis for data discovery. Storing the names of
attributes already analyzed in a knowledge base could optimize this automatic
discovery. To have a better knowledge base, we should not store any attributes
whose name does not make sense. In this article, to check if the name of an
attribute has a meaning, we propose a solution that calculate the distances
between this name and the words in a dictionary. Our studies on the distance
functions like N-Gram, Jaro-Winkler and Levenshtein show limits to set an
acceptance threshold for an attribute in the knowledge base. In order to
overcome these limitations, our solution aims to strengthen the score
calculation by using an exponential function based on the longest sequence. In
addition, a double scan in dictionary is also proposed in order to process the
attributes which have a compound name.
- Abstract(参考訳): 今日、ビッグデータとデータレイクでは、手動で管理するのが非常に難しい大量のデータに直面しています。
この文脈における個人データの保護には、データ発見のための自動分析が必要である。
知識ベースで分析済みの属性の名前を保持することで、この自動発見を最適化することができる。
より良い知識ベースを持つには、名前が意味をなさない属性を保存すべきではない。
本稿では,属性の名前に意味があるかどうかを確認するために,この名前と辞書の単語間の距離を計算する手法を提案する。
N-Gram、Jaro-Winkler、Levenshteinといった距離関数の研究は、知識ベースにおける属性の受容しきい値を設定する限界を示す。
これらの限界を克服するため,本手法は,最長系列に基づく指数関数を用いてスコア計算を強化することを目的としている。
さらに、複合名を持つ属性を処理するために、辞書のダブルスキャンも提案されている。
関連論文リスト
- Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Efficient CNN with uncorrelated Bag of Features pooling [98.78384185493624]
Bag of Features (BoF)は、畳み込み層の複雑さを軽減するために最近提案されている。
本稿では,BoFプーリング上に構築した手法を用いて,学習辞書の項目が非冗長であることを保証する。
提案した戦略は、BoFの効率的な変種を生成し、追加のパラメータを使わずにその性能をさらに向上させる。
論文 参考訳(メタデータ) (2022-09-22T09:00:30Z) - NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition [39.308634515653914]
我々は,計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提唱する。
FLATと比較して「単語文字」と「単語」の不要な注意計算を減らす
これにより、メモリ使用量が約50%削減され、ネットワークトレーニングのためにより広範なレキシコンやより高いバッチを使用することができる。
論文 参考訳(メタデータ) (2022-05-12T01:55:37Z) - Featherweight Assisted Vulnerability Discovery [0.6875312133832078]
機能名を構成する単語が潜在的に脆弱な関数を予測できる範囲について検討する。
根底にある考え方は、特定の「危険な」単語を含む関数名は、弱い関数に付随する可能性が高いということである。
論文 参考訳(メタデータ) (2022-02-06T01:58:49Z) - ALL Dolphins Are Intelligent and SOME Are Friendly: Probing BERT for
Nouns' Semantic Properties and their Prototypicality [4.915907527975786]
我々は、参照範囲を制限しない形容詞で表される英語の名詞を構成するためにBERT(Devlin et al.)を探索する。
本研究は,名詞間の関連性の強さと意味的特徴を捉える心理言語学的データセットに基づく。
そこで, BERTでは, 形容詞の意味を推論する上で必要な情報を活用することができた。
論文 参考訳(メタデータ) (2021-10-12T21:43:37Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - Rissanen Data Analysis: Examining Dataset Characteristics via
Description Length [78.42578316883271]
特定の能力が与えられたデータの正確なモデルを達成するのに役立つかどうかを判断する手法を提案する。
最小プログラム長は計算不可能であるため,ラベルの最小記述長(MDL)をプロキシとして推定する。
我々は、mdlの父にちなんで、rissanen data analysis (rda) と呼ぶ。
論文 参考訳(メタデータ) (2021-03-05T18:58:32Z) - Generating automatically labeled data for author name disambiguation: An
iterative clustering method [5.094623170336122]
本稿では、電子メールアドレス、共著者名、引用参照を用いてラベル付きトレーニングデータを自動生成できることを示す。
各機能で名前インスタンスをマッチングするための高精度ルールは、外部の権威データベースを用いて決定される。
228Kの著者名インスタンスのうち26,566のインスタンスでテストされたこの反復クラスタリングは、ペアのF1 = 0.99で正確にラベル付けされたデータを生成した。
論文 参考訳(メタデータ) (2021-02-05T16:24:25Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。