論文の概要: Eliciting Secret Knowledge from Language Models
- arxiv url: http://arxiv.org/abs/2510.01070v1
- Date: Wed, 01 Oct 2025 16:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.661279
- Title: Eliciting Secret Knowledge from Language Models
- Title(参考訳): 言語モデルからの秘密知識の排除
- Authors: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks,
- Abstract要約: シークレット・エリケーション(Secret elicitation)とは、AIが持っているが、明示的に言語化されていない知識を発見することである。
テストベッドとして,大規模言語モデル(LLM)の3つのファミリーをトレーニングして,下流に適用される特定の知識を持つように訓練する。
我々は,様々なブラックボックスとホワイトボックスの秘密抽出手法を設計し,LLM監査員が秘密知識を推測できるかどうかに基づいて評価する。
- 参考スコア(独自算出の注目度): 14.662189301904426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study secret elicitation: discovering knowledge that an AI possesses but does not explicitly verbalize. As a testbed, we train three families of large language models (LLMs) to possess specific knowledge that they apply downstream but deny knowing when asked directly. For example, in one setting, we train an LLM to generate replies that are consistent with knowing the user is female, while denying this knowledge when asked directly. We then design various black-box and white-box secret elicitation techniques and evaluate them based on whether they can help an LLM auditor successfully guess the secret knowledge. Many of our techniques improve on simple baselines. Our most effective techniques (performing best in 2/3 settings) are based on prefill attacks, a black-box technique where the LLM reveals secret knowledge when generating a completion from a predefined prefix. In our remaining setting, white-box techniques based on logit lens and sparse autoencoders (SAEs) are most effective. We release our models and code, establishing a public benchmark for evaluating secret elicitation methods.
- Abstract(参考訳): シークレット・エリケーション(Secret elicitation)とは、AIが持っているが、明示的に言語化されていない知識を発見することである。
テストベッドとして,大規模言語モデル(LLM)の3つのファミリーをトレーニングして,下流に適用される特定の知識を持つように訓練する。
例えば、ある環境では、私たちはLSMをトレーニングして、ユーザーが女性であることを知りながら、直接質問された時にその知識を否定する応答を生成する。
次に,様々なブラックボックスとホワイトボックスのシークレット推論手法を設計し,LLM監査者の秘密知識の推測に役立てるかどうかに基づいて評価する。
私たちの技術の多くは、単純なベースラインを改善しています。
我々の最も効果的な技術(2/3設定で最高の性能を発揮する)は、事前に定義されたプレフィックスから完了を生成する際に秘密知識を明らかにするブラックボックス手法であるプリフィル攻撃に基づいている。
残りの設定では、ロジットレンズとスパースオートエンコーダ(SAE)に基づくホワイトボックス技術が最も効果的である。
モデルとコードを公開し、シークレット・エコレーション・メソッドを評価するための公開ベンチマークを作成します。
関連論文リスト
- Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation on Large Language Models [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - Towards eliciting latent knowledge from LLMs with mechanistic interpretability [1.3286418032136589]
この研究は、言語モデルから隠れた知識を引き出す現在の技術の可能性を探ることを目的としている。
Tabooモデル(Taboo model)は、特定の秘密語を明示的に記述せずに記述する言語モデルである。
我々は、ロジットレンズやスパースオートエンコーダなど、機械的解釈可能性技術に基づいて、主に自動戦略を開発する。
論文 参考訳(メタデータ) (2025-05-20T13:36:37Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Knowledgeable Salient Span Mask for Enhancing Language Models as
Knowledge Base [51.55027623439027]
我々は、モデルが構造化されていないテキストから、完全に自己教師された方法でより多くの知識を学習するのを助ける2つのソリューションを開発する。
最高の知識を得るために、私たちは、継続的事前学習における知識の完全な自己教師型学習を初めて探求します。
論文 参考訳(メタデータ) (2022-04-17T12:33:34Z) - Language Models as Fact Checkers? [39.29607585655352]
言語モデルのみを使用して、効果的なエンドツーエンドのファクトチェッカーを作成します。
我々のゼロショットLMアプローチは、標準のFEVERタスクにおいてランダムなベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-07T09:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。