論文の概要: GEP: A GCG-Based method for extracting personally identifiable information from chatbots built on small language models
- arxiv url: http://arxiv.org/abs/2509.21192v2
- Date: Fri, 26 Sep 2025 12:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.789449
- Title: GEP: A GCG-Based method for extracting personally identifiable information from chatbots built on small language models
- Title(参考訳): GEP:小言語モデルを用いたチャットボットから個人識別情報を抽出するGCGに基づく手法
- Authors: Jieli Zhu, Vi Ngoc-Nha Tran,
- Abstract要約: 小型言語モデル(SLM)は、大型言語モデル(LLM)と比較してほぼ同等の性能のため、前例のないほど魅力的になる。
しかし、下流タスクのためのSLMの個人識別情報(PII)漏洩は未だ調査されていない。
PII抽出に特化して設計されたgreedy coordinate gradient-based (GCG) 法である GEP を提案する。
- 参考スコア(独自算出の注目度): 0.9668407688201359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small language models (SLMs) become unprecedentedly appealing due to their approximately equivalent performance compared to large language models (LLMs) in certain fields with less energy and time consumption during training and inference. However, the personally identifiable information (PII) leakage of SLMs for downstream tasks has yet to be explored. In this study, we investigate the PII leakage of the chatbot based on SLM. We first finetune a new chatbot, i.e., ChatBioGPT based on the backbone of BioGPT using medical datasets Alpaca and HealthCareMagic. It shows a matchable performance in BERTscore compared with previous studies of ChatDoctor and ChatGPT. Based on this model, we prove that the previous template-based PII attacking methods cannot effectively extract the PII in the dataset for leakage detection under the SLM condition. We then propose GEP, which is a greedy coordinate gradient-based (GCG) method specifically designed for PII extraction. We conduct experimental studies of GEP and the results show an increment of up to 60$\times$ more leakage compared with the previous template-based methods. We further expand the capability of GEP in the case of a more complicated and realistic situation by conducting free-style insertion where the inserted PII in the dataset is in the form of various syntactic expressions instead of fixed templates, and GEP is still able to reveal a PII leakage rate of up to 4.53%.
- Abstract(参考訳): スモールランゲージモデル (SLM) は、訓練や推論の時間消費の少ない特定の分野の大規模言語モデル (LLM) と比較して、ほぼ同等の性能のため、前例のないほど魅力的になる。
しかし、下流タスクのためのSLMの個人識別情報(PII)漏洩は未だ調査されていない。
本研究では,SLMに基づくチャットボットのPII漏洩について検討する。
最初に、医療データセットAlpacaとHealthCareMagicを使用して、BioGPTのバックボーンに基づいて、新しいチャットボット、すなわちChatBioGPTを微調整する。
BERTscoreでは、以前のChatDoctorとChatGPTの研究では、一致したパフォーマンスを示している。
このモデルに基づいて,従来のテンプレートベースのPII攻撃法では,SLM条件下での漏洩検出のためのデータセット中のPIIを効果的に抽出できないことを示す。
PII抽出に特化して設計されたgreedy coordinate gradient-based (GCG) 法である GEP を提案する。
GEPの実験的研究を行い、従来のテンプレートベースの手法と比較して最大60$\times$以上のリーク率を示す。
我々は,データセット中の挿入されたPIIが固定テンプレートの代わりに様々な構文表現の形で表現される自由形式の挿入を行うことにより,より複雑で現実的な状況において,GEPの能力をさらに拡張し,最大4.53%のPIIリーク率を示すことができる。
関連論文リスト
- Semi-rPPG: Semi-Supervised Remote Physiological Measurement with Curriculum Pseudo-Labeling [31.592892663270252]
Photoplethysmography (r)は、顔画像から心拍数などの生理的信号を監視するための有望な技術である。
現在のr研究は主に、単純な環境で収集されたいくつかの小さな公開データセットに基づいている。
少量のラベル付きデータと豊富なラベル付きデータを活用する半教師付き手法は、このギャップをrラーニングのために埋めることができる。
論文 参考訳(メタデータ) (2025-02-06T08:16:08Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - Continual Learning for Remote Physiological Measurement: Minimize Forgetting and Simplify Inference [4.913049603343811]
既存のr測定手法は、しばしば漸進的な学習シナリオを見落としている。
既存のクラスインクリメンタルな学習アプローチはr測定には適していない。
r測定のための連続学習に取り組むためにADDPという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T01:49:09Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Retrosynthesis Prediction with Local Template Retrieval [112.23386062396622]
特定の標的分子の反応を予測する再合成は、薬物発見に必須の課題である。
本稿では,局所的な反応テンプレート検索手法であるRetroKNNを紹介する。
我々は、広く使われている2つのベンチマーク、USPTO-50KとUSPTO-MITで包括的な実験を行う。
論文 参考訳(メタデータ) (2023-06-07T03:38:03Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Lung Cancer Lesion Detection in Histopathology Images Using Graph-Based
Sparse PCA Network [93.22587316229954]
ヘマトキシリンとエオシン(H&E)で染色した組織学的肺スライドにおける癌病変の自動検出のためのグラフベーススパース成分分析(GS-PCA)ネットワークを提案する。
我々は,SVM K-rasG12D肺がんモデルから得られたH&Eスライダーの精度・リコール率,Fスコア,谷本係数,レシーバ演算子特性(ROC)の曲線下領域を用いて,提案アルゴリズムの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-27T19:28:36Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。