論文の概要: Can You Keep a Secret? Involuntary Information Leakage in Language Model Writing
- arxiv url: http://arxiv.org/abs/2605.10794v1
- Date: Mon, 11 May 2026 16:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.980439
- Title: Can You Keep a Secret? Involuntary Information Leakage in Language Model Writing
- Title(参考訳): 秘密を守れるか? 言語モデル記述における不随意情報漏洩
- Authors: Ari Holtzman, Peter West,
- Abstract要約: モデルが彼らの記述から情報を引き出すことができるかどうかをテストする。
それぞれのモデルに、それを公開しないように指示した秘密の言葉を与え、それからストーリーを書くように頼みます。
2つ目のモデルは、二項判別テストでストーリーから秘密を識別しようとします。
- 参考スコア(独自算出の注目度): 18.511263298743895
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models are deployed in settings that require compartmentalization: system prompts should not be disclosed, chain-of-thought reasoning is hidden from users, and sensitive data passes through shared contexts. We test whether models can keep prompted information out of their writing. We give each model a secret word with instructions not to reveal it, then ask it to write a story. A second model tries to identify the secret from the story in a binary discrimination test. The secret word never appears literally in any output, but all five frontier models we test leak it thematically -- through topic choice, imagery, and setting--6hy-at rates significantly different from chance, up to 79\%. When told to actively hide the secret, models write \emph{away from} it, and this avoidance is itself detectable. The leakage is cross-model readable, scales sharply with model size within two model families, and disappears entirely for short-form writing like jokes. Giving the model a decoy concept to ``focus on instead'' partially redirects the leakage from the real secret to the decoy. Attending to a secret appears to open up an information channel that frontier LLMs cannot close, even when instructed to.
- Abstract(参考訳): システムプロンプトを開示してはいけないこと、ユーザのチェーン・オブ・シークレット推論が隠されていること、機密データが共有コンテキストを通過すること。
モデルが彼らの記述から情報を引き出すことができるかどうかをテストする。
それぞれのモデルに、それを公開しないように指示した秘密の言葉を与え、それからストーリーを書くように頼みます。
2つ目のモデルは、二項判別テストでストーリーから秘密を識別しようとします。
秘密の単語は文字通りの出力には現れないが、我々がテストする5つのフロンティアモデルすべてが、トピックの選択、イメージ、設定-6hy-atレートによって、最大79\%の確率で、それをテーマ的にリークする。
シークレットを積極的に隠すように指示されると、モデルはそれを『emph{away from}』と書き、この回避はそれ自体が検出可能である。
リークはクロスモデル読み取り可能で、2つのモデルファミリのモデルサイズでシャープにスケールし、ジョークのようなショートフォームの書き込みのために完全に消える。
モデルにデコイの概念を与える '`focus on'' は、リークを実際のシークレットからデコイに部分的にリダイレクトする。
秘密への攻撃は、たとえ指示されたとしても、フロンティアのLSMが閉じられない情報チャネルを開くように見える。
関連論文リスト
- Winter Soldier: Backdooring Language Models at Pre-Training with Indirect Data Poisoning [11.722958734691021]
間接的なデータ中毒はデータセットを効果的に保護し、その使用を追跡できることを示す。
モデルに任意のシークレットシーケンスを学習させる: トレーニングコーパスにないシークレットプロンプトに対するシークレット応答。
我々は、スクラッチから事前訓練された言語モデルに対する我々のアプローチを検証するとともに、毒性トークンの0.005%未満は、LMに秘密を隠蔽するのに十分であることを示す。
論文 参考訳(メタデータ) (2025-06-17T18:46:45Z) - Towards eliciting latent knowledge from LLMs with mechanistic interpretability [1.3286418032136589]
この研究は、言語モデルから隠れた知識を引き出す現在の技術の可能性を探ることを目的としている。
Tabooモデル(Taboo model)は、特定の秘密語を明示的に記述せずに記述する言語モデルである。
我々は、ロジットレンズやスパースオートエンコーダなど、機械的解釈可能性技術に基づいて、主に自動戦略を開発する。
論文 参考訳(メタデータ) (2025-05-20T13:36:37Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Gradient-Based Word Substitution for Obstinate Adversarial Examples
Generation in Language Models [24.27437576645939]
勾配に基づくアプローチであるGradObstinateを導入する。
広範囲にわたる実験により,提案したGradObstinateはより強力な強敵の例が得られた。
GradObstinateが見いだした頑健な単語置換の伝達可能性を示すために,4つの代表的NLPベンチマークの単語を、その頑健な置換に置き換える。
論文 参考訳(メタデータ) (2023-07-24T03:44:17Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。