論文の概要: Can pre-trained Transformers be used in detecting complex sensitive
sentences? -- A Monsanto case study
- arxiv url: http://arxiv.org/abs/2203.06793v1
- Date: Mon, 14 Mar 2022 00:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 14:48:42.354952
- Title: Can pre-trained Transformers be used in detecting complex sensitive
sentences? -- A Monsanto case study
- Title(参考訳): 事前学習されたトランスフォーマーは複雑なセンシティブな文を検出するのに使えるか?
─文さんとうの事例研究
- Authors: Roelien C. Timmer and David Liebowitz and Surya Nepal and Salil S.
Kanhere
- Abstract要約: 文書に機密情報を含む文の検出は、組織が貴重な機密情報の漏洩を防止するのに役立つ。
このような複雑な環境でのセンシティブな情報検出への現在のアプローチは、キーワードベースのアプローチや標準的な機械学習モデルに基づいている。
我々は,変換器モデル(BERT)の微調整表現が従来のモデルよりも優れていることを観察した。
- 参考スコア(独自算出の注目度): 23.550741067448094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Each and every organisation releases information in a variety of forms
ranging from annual reports to legal proceedings. Such documents may contain
sensitive information and releasing them openly may lead to the leakage of
confidential information. Detection of sentences that contain sensitive
information in documents can help organisations prevent the leakage of valuable
confidential information. This is especially challenging when such sentences
contain a substantial amount of information or are paraphrased versions of
known sensitive content. Current approaches to sensitive information detection
in such complex settings are based on keyword-based approaches or standard
machine learning models. In this paper, we wish to explore whether pre-trained
transformer models are well suited to detect complex sensitive information.
Pre-trained transformers are typically trained on an enormous amount of text
and therefore readily learn grammar, structure and other linguistic features,
making them particularly attractive for this task. Through our experiments on
the Monsanto trial data set, we observe that the fine-tuned Bidirectional
Encoder Representations from Transformers (BERT) transformer model performs
better than traditional models. We experimented with four different categories
of documents in the Monsanto dataset and observed that BERT achieves better F2
scores by 24.13\% to 65.79\% for GHOST, 30.14\% to 54.88\% for TOXIC, 39.22\%
for CHEMI, 53.57\% for REGUL compared to existing sensitive information
detection models.
- Abstract(参考訳): 各組織は,年次報告から法的手続まで,さまざまな形式で情報を公開している。
このような文書には機密情報が含まれ、公開して公開することは機密情報の漏洩につながる可能性がある。
文書に機密情報を含む文の検出は、組織が貴重な機密情報の漏洩を防止するのに役立つ。
このような文が相当量の情報を含んでいる場合や、既知の機密性の高いコンテンツのパラフレーズ版である場合、これは特に困難である。
このような複雑な環境でのセンシティブな情報検出に対する現在のアプローチは、キーワードベースのアプローチや標準機械学習モデルに基づいている。
本稿では,事前学習されたトランスフォーマモデルが複雑なセンシティブな情報を検出するのに適しているか検討する。
事前学習されたトランスフォーマーは、典型的には膨大な量のテキストで訓練されるため、文法、構造、その他の言語的特徴を簡単に習得することができる。
モンサント試行データセットの実験を通して、変換器(BERT)変換器モデルによる微調整による双方向エンコーダ表現が従来のモデルより優れていることを示す。
我々は、monsantoデータセットで4つの異なる文書のカテゴリを実験し、bertがより優れたf2スコアを24.13\%から65.79\%、ghostが30.14\%から54.88\%、chemiが39.22\%、regulが53.57\%と既存の機密情報検出モデルと比較した。
関連論文リスト
- Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - MisRoB{\AE}RTa: Transformers versus Misinformation [0.6091702876917281]
本稿では,誤情報検出のためのトランスフォーマーに基づくニューラルアンサンブルアーキテクチャを提案する。
MisRobaerTaは、分類性能を改善するために、2つのトランスフォーマー(BARTとRoBERTa)を利用する。
トレーニングとテストのために、私たちは10のクラスでラベル付けされた大規模な現実世界のニュース記事データセットを使用しました。
論文 参考訳(メタデータ) (2023-04-16T12:14:38Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Detecting COVID-19 Conspiracy Theories with Transformers and TF-IDF [2.3202611780303553]
我々はMediaEvalベンチマーク2021において,3つのフェイクニュース検出タスクの手法と結果を示す。
事前学習した変圧器は最高の検証結果が得られるが、スマートデザインのランダムトレーニングされた変圧器は、事前学習した変圧器に近い精度に達するように訓練することもできる。
論文 参考訳(メタデータ) (2022-05-01T01:48:48Z) - Transformer Memory as a Differentiable Search Index [102.41278496436948]
本稿では,文字列クエリを関連するドシデントに直接マップするテキストからテキストモデルを学ぶ新しいパラダイムであるdiffariable Search Index (DSI)を紹介する。
文書とその識別子の表現方法、訓練手順のバリエーション、モデルとコーパスサイズ間の相互作用について検討する。
論文 参考訳(メタデータ) (2022-02-14T19:12:43Z) - Understanding Transformers for Bot Detection in Twitter [0.0]
Twitterのボット検出は、ソーシャルメディアにおける偽情報や偏見の自動拡散を緩和し、対処するための重要なタスクである。
ボットまたは人間のアカウントが生成するツイートを、そのコンテンツのみに基づいて検出するために、事前学習された言語モデルの使用について検討する。
ボット検出タスクの微調整ジェネレーティブトランスがより高い精度を生み出すことを観察する。
論文 参考訳(メタデータ) (2021-04-13T13:32:55Z) - Sensitive Information Detection: Recursive Neural Networks for Encoding
Context [0.20305676256390928]
機密情報の漏洩は非常にコストがかかる可能性がある。
感度情報を検出するための簡易で脆いルールセットは、実際の感度情報のごく一部しか見つからないことを示す。
我々は,ラベル付き事例へのアクセスのみを前提とした,機密情報検出手法の新たなファミリーを開発する。
論文 参考訳(メタデータ) (2020-08-25T07:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。