論文の概要: Addressing Labelled Data Scarcity: Taxonomy-Agnostic Annotation of PII Values in HTTP Traffic using LLMs
- arxiv url: http://arxiv.org/abs/2605.06305v1
- Date: Thu, 07 May 2026 14:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.876666
- Title: Addressing Labelled Data Scarcity: Taxonomy-Agnostic Annotation of PII Values in HTTP Traffic using LLMs
- Title(参考訳): LLMを用いたHTTPトラフィックにおける分類-PII値の非依存アノテーション
- Authors: Thomas Cory, Axel Küpper,
- Abstract要約: 本稿では,HTTPメッセージ本体内のPII値の分類に依存しないアノテーションをLarge Language Modelsがサポートできるかどうかを検討する。
決定論的事前処理とラベルレベルの分類,ターゲットインスタンスレベルの値アノテーション,出力検証を組み合わせた多段階LLMパイプラインを提案する。
その結果, パイプラインはPIIのタイプを正確に検出し, 対応するPIIを抽出することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated privacy audits of web and mobile applications often analyse outbound HTTP traffic to detect Personally Identifiable Information (PII) leakage. However, existing learning-based detectors typically depend on scarce, manually labelled traffic and are tightly coupled to fixed label taxonomies, limiting transferability across domains and evolving definitions of PII. This paper investigates whether Large Language Models (LLMs) can support taxonomy-agnostic annotation of explicitly transmitted PII values in HTTP message bodies when the taxonomy is provided at runtime. We introduce a multi-stage LLM-based pipeline that combines deterministic pre-processing with label-level classification, targeted instance-level value annotation, and output validation. To enable controlled evaluation and exemplar-based prompting without relying on sensitive real-user captures, we further propose an LLM-based generator for synthetic HTTP traffic with manually validated, taxonomy-derived PII annotations. We evaluate the approach across three taxonomies spanning different PII domains and granularity levels. Results show that the pipeline accurately detects PII types and extracts corresponding values for concrete PII taxonomies. Overall, our findings position LLMs as a promising foundation for flexible, taxonomy-agnostic traffic annotation and for creating labelled data under evolving privacy taxonomies.
- Abstract(参考訳): Webおよびモバイルアプリケーションの自動プライバシ監査は、アウトバウンドなHTTPトラフィックを分析して、PII(Personally Identible Information)漏洩を検出する。
しかし、既存の学習ベースの検出器は、通常、希少で手動でラベル付けされたトラフィックに依存し、固定されたラベル分類に強く結びついており、ドメイン間の転送可能性やPIIの定義の進化を制限する。
本稿では,Large Language Models (LLMs) が実行時にHTTPメッセージ本体で明示的に送信されたPII値の分類に依存しないアノテーションをサポートできるかを検討する。
決定論的事前処理とラベルレベルの分類,ターゲットインスタンスレベルの値アノテーション,出力検証を組み合わせた多段階LLMパイプラインを提案する。
感性のある実ユーザキャプチャを使わずに,制御された評価と即時的なプロンプトを可能にするために,手動による分類由来のPIIアノテーションを用いた合成HTTPトラフィックのためのLLMベースのジェネレータを提案する。
異なるPIIドメインと粒度レベルにまたがる3つの分類群にまたがるアプローチを評価する。
その結果, パイプラインはPII型を正確に検出し, 具体的なPII分類における対応する値を抽出することがわかった。
総じて, LLMsは, フレキシブルかつ分類に依存しないトラフィックアノテーションと, 進化するプライバシ分類の下でラベル付きデータを作成するための有望な基盤として位置づけられた。
関連論文リスト
- CAPID: Context-Aware PII Detection for Question-Answering Systems [2.538582648751871]
CAPIDは、ローカルに所有する小型言語モデル(SLM)を微調整し、QAのためにLLMに渡される前に機密情報をフィルタリングする実践的手法である。
既存のデータセットは、そのようなモデルを効果的に訓練するために必要なPIIの文脈依存の関連性を捉えていない。
実験の結果,細調整SLMを用いたPII検出は,既存のベースラインのスパン,関連性,型精度を大きく上回ることがわかった。
論文 参考訳(メタデータ) (2026-02-10T18:41:31Z) - Large Language Models as Automatic Annotators and Annotation Adjudicators for Fine-Grained Opinion Analysis [3.186130813218338]
この作業では、宣言的なアノテーションパイプラインを使用して、テキスト中の詳細な意見を識別します。
LLM は自動アノテータやアジュディケータとして機能し,個々の LLM ベースのアノテータ間で高いアノテータ間合意を実現する。
これにより、これらの微粒な意見アノテートデータセットを作成するのに必要なコストと人的労力が削減される。
論文 参考訳(メタデータ) (2026-01-23T14:52:56Z) - EReLiFM: Evidential Reliability-Aware Residual Flow Meta-Learning for Open-Set Domain Generalization under Noisy Labels [85.78886153628663]
Open-Set Domain Generalizationは、ディープラーニングモデルが新しいドメインで目に見えないカテゴリを認識できるようにすることを目的としている。
ラベルノイズは、ソースドメインの知識を損なうことによって、オープンセットドメインの一般化を妨げる。
本稿では,ドメインギャップを埋めるために,Evidential Reliability-Aware Residual Flow Meta-Learning (EReLiFM)を提案する。
論文 参考訳(メタデータ) (2025-10-14T16:23:11Z) - You only need 4 extra tokens: Synergistic Test-time Adaptation for LLMs [50.54173262572369]
大規模言語モデル (LLM) は、金融、医療、農業などの専門分野にますます導入されている。
本稿では,言語モデルに対するラベルフリーテスト時適応について検討し,追加の監督なしにモデルをオンザフライで適応する推論時フレームワークであるSyTTAについて述べる。
論文 参考訳(メタデータ) (2025-10-11T14:00:39Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Permissive Information-Flow Analysis for Large Language Models [21.563132267220073]
大規模言語モデル(LLM)は、大規模ソフトウェアシステムのコモディティコンポーネントになりつつある。
これは自然なセキュリティとプライバシの問題を引き起こします。あるコンポーネントから取得した有毒なデータは、モデルの振る舞いを変更し、システム全体を侵害します。
LLMクエリを通じて情報フローラベルを伝搬する新しい,より寛容な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T00:25:43Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。