論文の概要: CanaryBench: Stress Testing Privacy Leakage in Cluster-Level Conversation Summaries
- arxiv url: http://arxiv.org/abs/2601.18834v1
- Date: Sun, 25 Jan 2026 20:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.000479
- Title: CanaryBench: Stress Testing Privacy Leakage in Cluster-Level Conversation Summaries
- Title(参考訳): CanaryBench: クラスタレベルの会話サマリにおけるストレステストのプライバシ漏洩
- Authors: Deep Mehta,
- Abstract要約: CanaryBenchは、クラスタレベルの会話要約におけるプライバシー漏洩の簡易かつ再現可能なストレステストである。
CanaryBenchは、センシティブな識別子をシミュレートする秘密文字列(カナリア)を植え込んだ合成会話を生成する。
52個のカナリアクラスタ中50個のカナリアリークと非ゼロベースPIIインジケータ数について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aggregate analytics over conversational data are increasingly used for safety monitoring, governance, and product analysis in large language model systems. A common practice is to embed conversations, cluster them, and publish short textual summaries describing each cluster. While raw conversations may never be exposed, these derived summaries can still pose privacy risks if they contain personally identifying information (PII) or uniquely traceable strings copied from individual conversations. We introduce CanaryBench, a simple and reproducible stress test for privacy leakage in cluster-level conversation summaries. CanaryBench generates synthetic conversations with planted secret strings ("canaries") that simulate sensitive identifiers. Because canaries are known a priori, any appearance of these strings in published summaries constitutes a measurable leak. Using TF-IDF embeddings and k-means clustering on 3,000 synthetic conversations (24 topics) with a canary injection rate of 0.60, we evaluate an intentionally extractive example snippet summarizer that models quote-like reporting. In this configuration, we observe canary leakage in 50 of 52 canary-containing clusters (cluster-level leakage rate 0.961538), along with nonzero regex-based PII indicator counts. A minimal defense combining a minimum cluster-size publication threshold (k-min = 25) and regex-based redaction eliminates measured canary leakage and PII indicator hits in the reported run while maintaining a similar cluster-coherence proxy. We position this work as a societal impacts contribution centered on privacy risk measurement for published analytics artifacts rather than raw user data.
- Abstract(参考訳): 会話データに対する集約分析は、大規模言語モデルシステムにおける安全監視、ガバナンス、製品分析にますます利用されています。
一般的なプラクティスは、会話を埋め込んでクラスタ化し、各クラスタを記述する短いテキスト要約を公開することです。
生の会話は決して公開されないかもしれないが、個人識別情報(PII)や個別の会話からコピーされた独自のトレース可能な文字列を含む場合、これらの派生した要約は依然としてプライバシー上のリスクを生じる可能性がある。
CanaryBenchは、クラスタレベルの会話要約におけるプライバシー漏洩の簡易かつ再現可能なストレステストである。
CanaryBenchは、センシティブな識別子をシミュレートする秘密文字列(カナリア)を植え込んだ合成会話を生成する。
カナリヤは先入観として知られており、これらの列が出版された要約に現れることは、測定可能なリークである。
TF-IDF埋め込みとk-meansクラスタリングを3000の合成会話(24トピック)にカナリアインジェクションレート0.60で適用し、引用のようなレポートをモデル化した意図的に抽出されたサンプルスニペット要約器の評価を行った。
この構成では、52個のカナリアを含むクラスタ(クラスタレベルのリーク率0.961538)のうち50個のカナリアリークを、非ゼロレジェックスベースのPIIインジケータ数とともに観測する。
最小クラスタサイズのパブリッシュしきい値(k-min = 25)とregexベースのリアクションを組み合わせた最小防御は、同様のクラスタコヒーレンスプロキシを維持しながら、報告された実行時のカナリアリークとPIIインジケータヒットを排除します。
我々は、この研究を、生のユーザデータではなく、公開分析成果物に対するプライバシーリスク測定を中心とした社会的影響として位置付けている。
関連論文リスト
- Synth-MIA: A Testbed for Auditing Privacy Leakage in Tabular Data Synthesis [8.4361320391543]
タブラル生成モデルは、トレーニングデータに似た合成データセットを作成することによって、プライバシを保護するとしばしば主張される。
会員推論攻撃(MIA)は、最近、合成データのプライバシー漏洩を評価する方法として登場した。
合成データセットの最大プライバシー漏洩を推定するために、攻撃の集合をデプロイする統一的モデルに依存しない脅威フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T16:53:38Z) - Urania: Differentially Private Insights into AI Use [102.27238986985698]
$Urania$は、クラスタリング、パーティション選択、ヒストグラムベースの要約といったDPツールを活用することによって、エンドツーエンドのプライバシ保護を提供する。
結果は、厳密なユーザのプライバシを維持しながら、意味のある会話の洞察を抽出するフレームワークの能力を示している。
論文 参考訳(メタデータ) (2025-06-05T07:00:31Z) - STAMP Your Content: Proving Dataset Membership via Watermarked Rephrasings [17.175065729425825]
STAMPはデータセットのメンバシップを検出するフレームワークである。
トレーニングデータに1回しか表示されない4つのベンチマークにおける汚染を,我々のフレームワークが検出できることが示される。
論文 参考訳(メタデータ) (2025-04-18T02:25:08Z) - Intelligent Multi-Document Summarisation for Extracting Insights on Racial Inequalities from Maternity Incident Investigation Reports [0.8609957371651683]
医療では、毎年何千もの安全事故が発生するが、これらの事故から学ぶことは効果的に集約されない。
本稿では,安全事故報告の集約と分析を容易にするためのフレームワークであるI-SIRch:CSを提案する。
このフレームワークは、セーフティ・インテリジェンス・リサーチ(SIRch)の分類学を用いた概念アノテーションと、クラスタリング、要約、分析機能を統合する。
論文 参考訳(メタデータ) (2024-07-11T09:11:20Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。