論文の概要: Beyond PII: How Users Attempt to Estimate and Mitigate Implicit LLM Inference
- arxiv url: http://arxiv.org/abs/2509.12152v1
- Date: Mon, 15 Sep 2025 17:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.42144
- Title: Beyond PII: How Users Attempt to Estimate and Mitigate Implicit LLM Inference
- Title(参考訳): PIIを超えて: ユーザがLLM推論を見積り、緩和しようとする方法
- Authors: Synthia Wang, Sai Teja Peddinti, Nina Taft, Nick Feamster,
- Abstract要約: 大きな言語モデル(LLM)は、一見無害なテキストから個人属性を推測することができ、記憶されたデータ漏洩以外のプライバシーリスクを生じさせる。
我々は,テキストスニペットを推論リスクと判断し,懸念レベルを報告し,推論をブロックするために書き直しを試みた米国参加者240名を対象に調査を行った。
結果は、参加者が推測を予想するのに苦労し、偶然よりも少し上達したことを示している。
- 参考スコア(独自算出の注目度): 8.063685458567202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT can infer personal attributes from seemingly innocuous text, raising privacy risks beyond memorized data leakage. While prior work has demonstrated these risks, little is known about how users estimate and respond. We conducted a survey with 240 U.S. participants who judged text snippets for inference risks, reported concern levels, and attempted rewrites to block inference. We compared their rewrites with those generated by ChatGPT and Rescriber, a state-of-the-art sanitization tool. Results show that participants struggled to anticipate inference, performing a little better than chance. User rewrites were effective in just 28\% of cases - better than Rescriber but worse than ChatGPT. We examined our participants' rewriting strategies, and observed that while paraphrasing was the most common strategy it is also the least effective; instead abstraction and adding ambiguity were more successful. Our work highlights the importance of inference-aware design in LLM interactions.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、一見無害なテキストから個人属性を推測することができ、記憶されたデータ漏洩以上のプライバシーリスクを生じさせる。
以前の作業ではこれらのリスクが示されていたが、ユーザの見積や対応方法はほとんど分かっていない。
我々は,テキストスニペットを推論リスクと判断し,懸念レベルを報告し,推論をブロックするために書き直しを試みた米国参加者240名を対象に調査を行った。
われわれはそれらの書き直しを、最先端の衛生ツールであるChatGPTとRescriberによって生成されたものと比較した。
結果は、参加者が推測を予想するのに苦労し、偶然よりも少し上達したことを示している。
ユーザリライトはたった286%のケースで有効でした。
参加者の書き直し戦略を検討したところ、言い換えがもっとも一般的な戦略であるのに対して、最も効果の低い戦略であり、代わりに抽象化とあいまいさの追加がより成功していることがわかった。
我々の研究は、LLM相互作用における推論対応設計の重要性を強調している。
関連論文リスト
- Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な関心事は、著作権のあるオンラインテキストを悪用するかどうかである。
本稿では,Web ユーザとコンテンツプラットフォームがtextbftextitunique 識別子を,信頼性と独立性のあるメンバシップ推論に活用することを提唱する,代替の textitinsert-and-detect 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - Intention Analysis Makes LLMs A Good Jailbreak Defender [79.4014719271075]
我々は,シンプルかつ高能率な防衛戦略,すなわち意図分析(mathbbIA$)を提示する。
$mathbbIA$ は LLM 固有の自己修正をトリガーし、2段階のプロセスを通じて能力を向上させる。
さまざまなjailbreakベンチマークの実験によると、$mathbbIA$は一貫して応答の有害性を著しく低減できる。
論文 参考訳(メタデータ) (2024-01-12T13:15:05Z) - Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation [5.043563227694139]
大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。
各種の命令調整型LMの自己コントラクションに関する包括的調査を行う。
本稿では,自己矛盾を効果的に検出・緩和する新しいプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T08:43:46Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。