論文の概要: Can Large Language Models Really Recognize Your Name?
- arxiv url: http://arxiv.org/abs/2505.14549v1
- Date: Tue, 20 May 2025 16:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.55758
- Title: Can Large Language Models Really Recognize Your Name?
- Title(参考訳): 大規模言語モデルはあなたの名前を本当に認識できるのか?
- Authors: Dzung Pham, Peter Kairouz, Niloofar Mireshghallah, Eugene Bagdasarian, Chau Minh Pham, Amir Houmansadr,
- Abstract要約: 現代大規模言語モデル(LLM)は、曖昧な文脈のため、短いテキストスニペットでも定期的に人名を見落としている。
AMBENCHは、明らかに不明瞭な人物名のベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 23.4365383606717
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly being used to protect sensitive user data. However, current LLM-based privacy solutions assume that these models can reliably detect personally identifiable information (PII), particularly named entities. In this paper, we challenge that assumption by revealing systematic failures in LLM-based privacy tasks. Specifically, we show that modern LLMs regularly overlook human names even in short text snippets due to ambiguous contexts, which cause the names to be misinterpreted or mishandled. We propose AMBENCH, a benchmark dataset of seemingly ambiguous human names, leveraging the name regularity bias phenomenon, embedded within concise text snippets along with benign prompt injections. Our experiments on modern LLMs tasked to detect PII as well as specialized tools show that recall of ambiguous names drops by 20--40% compared to more recognizable names. Furthermore, ambiguous human names are four times more likely to be ignored in supposedly privacy-preserving summaries generated by LLMs when benign prompt injections are present. These findings highlight the underexplored risks of relying solely on LLMs to safeguard user privacy and underscore the need for a more systematic investigation into their privacy failure modes.
- Abstract(参考訳): 大きな言語モデル(LLM)は、機密性の高いユーザデータを保護するためにますます使われています。
しかし、現在のLLMベースのプライバシーソリューションは、これらのモデルが個人識別可能な情報(PII)、特に名前付きエンティティを確実に検出できると仮定している。
本稿では,LLMに基づくプライバシタスクの体系的障害を明らかにすることで,その仮定に挑戦する。
具体的には、現代LLMは、あいまいな文脈のため、短いテキストスニペットでも定期的に人名を見落としており、その名前が誤って解釈されたり、誤解されたりしていることを示す。
AMBENCHは、不明瞭な人物名のベンチマークデータセットで、名前の正則性バイアス現象を利用して、簡潔なテキストスニペット内に、良質なプロンプトインジェクションと共に埋め込まれている。
PIIと特殊ツールの発見を課題とした最近のLCM実験では,より認識可能な名前に比べて曖昧な名前のリコールが20~40%減少することが示された。
さらに、不明瞭な人名は、良質なプロンプトインジェクションが存在する場合、LLMが生成したと思われるプライバシー保護サマリーで無視される可能性が4倍高い。
これらの調査結果は、ユーザプライバシの保護と、彼らのプライバシ障害モードに関するよりシステマティックな調査の必要性を浮き彫りにするために、LSMのみに依存するという、未調査のリスクを浮き彫りにしている。
関連論文リスト
- Anti-adversarial Learning: Desensitizing Prompts for Large Language Models [13.674984661911607]
本稿では,LLMプロンプトを脱感作する方法であるPromptObfusを提案する。
PromptObfusの基本的な考え方は"反逆的"な学習であり、プライバシーの言葉を不明瞭な機密情報へと誘惑する。
PromptObfus はタスク性能を保ちながらリモート LLM からのプライバシ推論を効果的に防止できることを示す。
論文 参考訳(メタデータ) (2025-04-25T06:19:02Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。
質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。
我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。