論文の概要: SDLog: A Deep Learning Framework for Detecting Sensitive Information in Software Logs
- arxiv url: http://arxiv.org/abs/2505.14976v1
- Date: Tue, 20 May 2025 23:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.792554
- Title: SDLog: A Deep Learning Framework for Detecting Sensitive Information in Software Logs
- Title(参考訳): SDLog: ソフトウェアログのセンシティブな情報を検出するためのディープラーニングフレームワーク
- Authors: Roozbeh Aghili, Xingfang Wu, Foutse Khomh, Heng Li,
- Abstract要約: ソフトウェアログの機密情報を識別するためのフレームワークであるSDLogを紹介する。
ターゲットデータセットからの微調整サンプルは100個しかなく、SDLogは99.5%の機密属性と98.4%のF1スコアを正しく識別できる。
- 参考スコア(独自算出の注目度): 11.882006416295098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software logs are messages recorded during the execution of a software system that provide crucial run-time information about events and activities. Although software logs have a critical role in software maintenance and operation tasks, publicly accessible log datasets remain limited, hindering advance in log analysis research and practices. The presence of sensitive information, particularly Personally Identifiable Information (PII) and quasi-identifiers, introduces serious privacy and re-identification risks, discouraging the publishing and sharing of real-world logs. In practice, log anonymization techniques primarily rely on regular expression patterns, which involve manually crafting rules to identify and replace sensitive information. However, these regex-based approaches suffer from significant limitations, such as extensive manual efforts and poor generalizability across diverse log formats and datasets. To mitigate these limitations, we introduce SDLog, a deep learning-based framework designed to identify sensitive information in software logs. Our results show that SDLog overcomes regex limitations and outperforms the best-performing regex patterns in identifying sensitive information. With only 100 fine-tuning samples from the target dataset, SDLog can correctly identify 99.5% of sensitive attributes and achieves an F1-score of 98.4%. To the best of our knowledge, this is the first deep learning alternative to regex-based methods in software log anonymization.
- Abstract(参考訳): ソフトウェアログ(Software logs)は、イベントやアクティビティに関する重要なランタイム情報を提供するソフトウェアシステムの実行中に記録されるメッセージである。
ソフトウェアログはソフトウェアメンテナンスや運用タスクにおいて重要な役割を担っているが、一般にアクセス可能なログデータセットは限定的であり、ログ分析の研究や実践の進歩を妨げる。
機密情報、特にPII(Personally Identible Information)と準識別器の存在は、重大なプライバシーと再識別リスクを導入し、現実世界のログの公開と共有を妨げている。
実際には、ログ匿名化技術は主に正規表現パターンに依存しており、機密情報を識別し置き換えるためのルールを手作業で作成する。
しかしながら、これらのregexベースのアプローチは、広範囲な手作業や、多様なログフォーマットやデータセット間の一般化性の欠如など、重大な制限に悩まされている。
これらの制限を軽減するために,ソフトウェアログ内の機密情報を識別する深層学習ベースのフレームワークであるSDLogを導入する。
以上の結果から,SDLogはRegexの限界を克服し,機密情報の識別において最も優れたregexパターンを上回ります。
ターゲットデータセットからの微調整サンプルは100個しかなく、SDLogは99.5%の機密属性を正しく識別することができ、98.4%のF1スコアを達成できる。
私たちの知る限りでは、これはソフトウェアログの匿名化において、regexベースのメソッドに代わる最初のディープラーニング代替手段です。
関連論文リスト
- LogLLM: Log-based Anomaly Detection Using Large Language Models [7.7704116297749675]
大規模言語モデル(LLM)を活用するログベースの異常検出フレームワークであるLogLLMを提案する。
LogLLMはBERTを使用してログメッセージからセマンティックベクターを抽出し、変換器デコーダベースのモデルであるLlamaを使ってログシーケンスを分類する。
我々のフレームワークは、性能と適応性を高めるために設計された新しい3段階の手順によって訓練されている。
論文 参考訳(メタデータ) (2024-11-13T12:18:00Z) - Privacy-Preserving Redaction of Diagnosis Data through Source Code Analysis [4.721903499874626]
我々は、ログのリアクションのためのソースコード解析アプローチについて論じる。
本手法では,機密情報を含むログメッセージを識別するために,対応するログ文をソースコード内に配置する。
論文 参考訳(メタデータ) (2024-09-26T04:41:55Z) - Protecting Privacy in Software Logs: What Should Be Anonymized? [12.980238412281471]
ソフトウェアログにおける機密情報の存在は、重大なプライバシー上の懸念を生じさせる。
この研究は、複数の観点からソフトウェアログのプライバシーを包括的に分析する。
当社の調査結果は、ログのプライバシーに関するさまざまな視点に光を当て、業界の課題を明らかにしました。
論文 参考訳(メタデータ) (2024-09-17T16:12:23Z) - RAPID: Training-free Retrieval-based Log Anomaly Detection with PLM
considering Token-level information [7.861095039299132]
特に現実世界のアプリケーションでは、ログ異常検出の必要性が高まっている。
従来のディープラーニングベースの異常検出モデルでは、データセット固有のトレーニングが必要で、それに対応する遅延が発生する。
本稿では,ログデータ固有の特徴を活かして,トレーニング遅延を伴わずに異常検出を可能にするモデルRAPIDを紹介する。
論文 参考訳(メタデータ) (2023-11-09T06:11:44Z) - Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。
本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。
本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文 参考訳(メタデータ) (2023-08-17T14:19:22Z) - Data-Driven Approach for Log Instruction Quality Assessment [59.04636530383049]
優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。
1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。
本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
論文 参考訳(メタデータ) (2022-04-06T07:02:23Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - Self-Attentive Classification-Based Anomaly Detection in Unstructured
Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。
従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文 参考訳(メタデータ) (2020-08-21T07:26:55Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。