論文の概要: Eliciting Secret Knowledge from Language Models
- arxiv url: http://arxiv.org/abs/2510.01070v2
- Date: Fri, 31 Oct 2025 12:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 19:57:09.709876
- Title: Eliciting Secret Knowledge from Language Models
- Title(参考訳): 言語モデルからの秘密知識の排除
- Authors: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks,
- Abstract要約: シークレット・エリケーション(Secret elicitation)とは、AIが持っているが、明示的に言語化されていない知識を発見することである。
テストベッドとして,大規模言語モデル(LLM)の3つのファミリーをトレーニングして,下流に適用される特定の知識を持つように訓練する。
我々は,様々なブラックボックスとホワイトボックスの秘密抽出手法を設計し,LLM監査員が秘密知識を推測できるかどうかに基づいて評価する。
- 参考スコア(独自算出の注目度): 14.662189301904426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study secret elicitation: discovering knowledge that an AI possesses but does not explicitly verbalize. As a testbed, we train three families of large language models (LLMs) to possess specific knowledge that they apply downstream but deny knowing when asked directly. For example, in one setting, we train an LLM to generate replies that are consistent with knowing the user is female, while denying this knowledge when asked directly. We then design various black-box and white-box secret elicitation techniques and evaluate them based on whether they can help an LLM auditor successfully guess the secret knowledge. Many of our techniques improve on simple baselines. Our most effective techniques (performing best in all settings) are based on prefill attacks, a black-box technique where the LLM reveals secret knowledge when generating a completion from a predefined prefix. Our white-box techniques based on logit lens and sparse autoencoders (SAEs) also consistently increase the success rate of the LLM auditor, but are less effective. We release our models and code, establishing a public benchmark for evaluating secret elicitation methods.
- Abstract(参考訳): シークレット・エリケーション(Secret elicitation)とは、AIが持っているが、明示的に言語化されていない知識を発見することである。
テストベッドとして,大規模言語モデル(LLM)の3つのファミリーをトレーニングして,下流に適用される特定の知識を持つように訓練する。
例えば、ある環境では、私たちはLSMをトレーニングして、ユーザーが女性であることを知りながら、直接質問された時にその知識を否定する応答を生成する。
次に,様々なブラックボックスとホワイトボックスのシークレット推論手法を設計し,LLM監査者が秘密知識を推測できるかどうかに基づいて評価する。
私たちの技術の多くは、単純なベースラインを改善しています。
我々の最も効果的な技術(すべての設定で最高の性能を発揮する)は、事前に定義されたプレフィックスから完了を生成する際に秘密知識を明らかにするブラックボックス技術であるプリフィル攻撃に基づいている。
また,ロジットレンズとスパースオートエンコーダ(SAE)をベースとしたホワイトボックス技術により,LLMオーディショナーの成功率を一貫して向上させることができたが,効果は低かった。
モデルとコードを公開し、シークレット・エコレーション・メソッドを評価するための公開ベンチマークを作成します。
関連論文リスト
- Deep Learning-based Method for Expressing Knowledge Boundary of Black-Box LLM [5.711910452650628]
大規模言語モデル(LLM)は目覚ましい成功を収めているが、コンテンツ生成の歪み(幻覚)の出現は、その実践的応用を制限している。
本稿では,ブラックボックスLLMの知識境界を表現する深層学習に基づくLSCL(LLM-Supervised Confidence Learning)を提案する。
論文 参考訳(メタデータ) (2026-02-11T12:42:59Z) - Parametric Knowledge is Not All You Need: Toward Honest Large Language Models via Retrieval of Pretraining Data [33.6173339938215]
大規模言語モデル(LLM)は疑問に答える能力が高いが、彼ら自身の知識境界に気づいていないことが多い。
幻覚よりも、言語モデルはより正直で、トピックに関する十分な知識がなければ、"私は知らない"と答えるべきです。
論文 参考訳(メタデータ) (2026-01-29T03:32:09Z) - Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation on Large Language Models [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - Towards eliciting latent knowledge from LLMs with mechanistic interpretability [1.3286418032136589]
この研究は、言語モデルから隠れた知識を引き出す現在の技術の可能性を探ることを目的としている。
Tabooモデル(Taboo model)は、特定の秘密語を明示的に記述せずに記述する言語モデルである。
我々は、ロジットレンズやスパースオートエンコーダなど、機械的解釈可能性技術に基づいて、主に自動戦略を開発する。
論文 参考訳(メタデータ) (2025-05-20T13:36:37Z) - Refine Knowledge of Large Language Models via Adaptive Contrastive Learning [54.61213933999464]
方法の主流は、大規模言語モデルの知識表現を最適化することで幻覚を減らすことである。
知識を精錬するモデルのプロセスは、人間の学習方法から大きな恩恵を受けることができると私たちは信じています。
人間の学習過程を模倣することで,適応的コントラスト学習戦略を設計する。
論文 参考訳(メタデータ) (2025-02-11T02:19:13Z) - KaLM: Knowledge-aligned Autoregressive Language Modeling via Dual-view Knowledge Graph Contrastive Learning [74.21524111840652]
本稿では、textitKnowledge-aligned Language Modeling アプローチである textbfKaLM を提案する。
明示的な知識アライメントと暗黙的な知識アライメントという共同目的を通じて、KG知識と整合するように、自己回帰的な大規模言語モデルを微調整する。
特に,本手法は知識駆動型タスクの評価において顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2024-12-06T11:08:24Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Distilling Rule-based Knowledge into Large Language Models [90.7765003679106]
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
まず, LLMの強い文脈内能力を用いて, テキスト規則から知識を抽出する規則蒸留法を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
論文 参考訳(メタデータ) (2023-11-15T11:42:41Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Knowledgeable Salient Span Mask for Enhancing Language Models as
Knowledge Base [51.55027623439027]
我々は、モデルが構造化されていないテキストから、完全に自己教師された方法でより多くの知識を学習するのを助ける2つのソリューションを開発する。
最高の知識を得るために、私たちは、継続的事前学習における知識の完全な自己教師型学習を初めて探求します。
論文 参考訳(メタデータ) (2022-04-17T12:33:34Z) - Language Models as Fact Checkers? [39.29607585655352]
言語モデルのみを使用して、効果的なエンドツーエンドのファクトチェッカーを作成します。
我々のゼロショットLMアプローチは、標準のFEVERタスクにおいてランダムなベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-07T09:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。