論文の概要: Cluster-guided LLM-Based Anonymization of Software Analytics Data: Studying Privacy-Utility Trade-offs in JIT Defect Prediction
- arxiv url: http://arxiv.org/abs/2512.12224v1
- Date: Sat, 13 Dec 2025 07:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.174137
- Title: Cluster-guided LLM-Based Anonymization of Software Analytics Data: Studying Privacy-Utility Trade-offs in JIT Defect Prediction
- Title(参考訳): クラスタ誘導LDMによるソフトウェア分析データの匿名化:JIT欠陥予測におけるプライバシ-ユーティリティトレードオフの検討
- Authors: Maaz Khan, Gul Sher Khan, Ahsan Raza, Pir Sami Ullah, Abdul Ali Bangash,
- Abstract要約: 既存の匿名化メソッドは、ソフトウェアメトリクス間のコンテキスト依存性を見落とし、最適なプライバシーとユーティリティのトレードオフにつながる。
本稿では,JITデータセット内の文脈的および統計的関係を保存するクラスタ誘導匿名化手法を提案する。
- 参考スコア(独自算出の注目度): 2.63588194284503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing use of machine learning (ML) for Just-In-Time (JIT) defect prediction raises concerns about privacy leakage from software analytics data. Existing anonymization methods, such as tabular transformations and graph perturbations, often overlook contextual dependencies among software metrics, leading to suboptimal privacy-utility tradeoffs. Leveraging the contextual reasoning of Large Language Models (LLMs), we propose a cluster-guided anonymization technique that preserves contextual and statistical relationships within JIT datasets. Our method groups commits into feature-based clusters and employs an LLM to generate context-aware parameter configurations for each commit cluster, defining alpha-beta ratios and churn mixture distributions used for anonymization. Our evaluation on six projects (Cassandra, Flink, Groovy, Ignite, OpenStack, and Qt) shows that our LLM-based approach achieves privacy level 2 (IPR >= 80 percent), improving privacy by 18 to 25 percent over four state-of-the-art graph-based anonymization baselines while maintaining comparable F1 scores. Our results demonstrate that LLMs can act as adaptive anonymization engines when provided with cluster-specific statistical information about similar data points, enabling context-sensitive and privacy-preserving software analytics without compromising predictive accuracy.
- Abstract(参考訳): Just-In-Time(JIT)の欠陥予測に機械学習(ML)の利用が増加し、ソフトウェア分析データからプライバシの漏洩に関する懸念が高まっている。
表の変換やグラフの摂動といった既存の匿名化手法は、ソフトウェアメトリクス間のコンテキスト依存を見落とし、最適化されたプライバシーとユーティリティのトレードオフにつながることが多い。
本稿では,Large Language Models (LLMs) の文脈推論を活用し,JITデータセット内の文脈的および統計的関係を保存するクラスタ誘導匿名化手法を提案する。
提案手法では,コミット群を特徴クラスタに分割し,LLMを用いて各コミットクラスタのコンテキスト認識パラメータ構成を生成し,α-ベータ比と匿名化に使用するチャーン混合分布を定義する。
Cassandra, Flink, Groovy, Ignite, OpenStack, Qtの6つのプロジェクト(Cassandra, Flink, Groovy, Ignite, OpenStack, Qt)に対する私たちの評価は,LLMベースのアプローチがプライバシレベル2(IPR >=80%)を実現していることを示している。
以上の結果から,LCMは類似データ点に関するクラスタ固有の統計情報を提供する際に,適応匿名化エンジンとして機能し,予測精度を損なうことなく,文脈に敏感かつプライバシ保護のソフトウェア解析を可能にすることが示唆された。
関連論文リスト
- ESMC: MLLM-Based Embedding Selection for Explainable Multiple Clustering [79.69917150582633]
MLLM(Multi-modal large language model)は、ユーザ主導のクラスタリングを実現するために利用することができる。
本手法はまず,MLLMのテキストトークンの隠蔽状態が対応する特徴と強く関連していることを明らかにする。
また、擬似ラベル学習を付加した軽量クラスタリングヘッドを採用し、クラスタリング精度を大幅に向上させた。
論文 参考訳(メタデータ) (2025-11-30T04:36:51Z) - Self-Refining Language Model Anonymizers via Adversarial Distillation [48.280759014096354]
本稿では,Self-refining Anonymization with Language Model (SEAL)を紹介する。
SEALは、推論時に外部モデルに頼ることなく効果的な匿名化を行うために、小型言語モデル(SLM)をトレーニングするための新しい蒸留フレームワークである。
合成個人プロファイルとテキストコメントのデータセットであるSynthPAIの実験は、SEALでトレーニングされたSLMが匿名化機能を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T08:21:27Z) - Augmenting Anonymized Data with AI: Exploring the Feasibility and Limitations of Large Language Models in Data Enrichment [3.459382629188014]
大規模言語モデル(LLM)は、テキスト生成と理解の両方において高度な機能を示している。
データアーカイブへのそれらの適用は、データ対象に関する機密情報の民営化を促進する可能性がある。
このデータは、保護されていないとしても、開示と身元確認の両方の観点からプライバシー上のリスクをもたらす可能性がある。
論文 参考訳(メタデータ) (2025-04-03T13:26:59Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with
Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。
本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-21T02:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。