論文の概要: Towards eliciting latent knowledge from LLMs with mechanistic interpretability
- arxiv url: http://arxiv.org/abs/2505.14352v1
- Date: Tue, 20 May 2025 13:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.264259
- Title: Towards eliciting latent knowledge from LLMs with mechanistic interpretability
- Title(参考訳): 機械的解釈可能性を考慮したLCMからの潜伏知識の抽出に向けて
- Authors: Bartosz Cywiński, Emil Ryd, Senthooran Rajamanoharan, Neel Nanda,
- Abstract要約: この研究は、言語モデルから隠れた知識を引き出す現在の技術の可能性を探ることを目的としている。
Tabooモデル(Taboo model)は、特定の秘密語を明示的に記述せずに記述する言語モデルである。
我々は、ロジットレンズやスパースオートエンコーダなど、機械的解釈可能性技術に基づいて、主に自動戦略を開発する。
- 参考スコア(独自算出の注目度): 1.3286418032136589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models become more powerful and sophisticated, it is crucial that they remain trustworthy and reliable. There is concerning preliminary evidence that models may attempt to deceive or keep secrets from their operators. To explore the ability of current techniques to elicit such hidden knowledge, we train a Taboo model: a language model that describes a specific secret word without explicitly stating it. Importantly, the secret word is not presented to the model in its training data or prompt. We then investigate methods to uncover this secret. First, we evaluate non-interpretability (black-box) approaches. Subsequently, we develop largely automated strategies based on mechanistic interpretability techniques, including logit lens and sparse autoencoders. Evaluation shows that both approaches are effective in eliciting the secret word in our proof-of-concept setting. Our findings highlight the promise of these approaches for eliciting hidden knowledge and suggest several promising avenues for future work, including testing and refining these methods on more complex model organisms. This work aims to be a step towards addressing the crucial problem of eliciting secret knowledge from language models, thereby contributing to their safe and reliable deployment.
- Abstract(参考訳): 言語モデルがより強力で洗練されたものになるにつれて、それらが信頼性と信頼性を維持することが不可欠である。
モデルがオペレーターから秘密を欺いたり隠そうとするかもしれないという予備的な証拠がある。
このような隠された知識を抽出する現在のテクニックの能力を探るため、明示的に記述することなく特定の秘密語を記述する言語モデルであるTabooモデルをトレーニングする。
重要なのは、秘密の単語がトレーニングデータやプロンプトでモデルに提示されないことだ。
そして、この秘密を明らかにする方法を探る。
まず,非解釈可能性(ブラックボックス)のアプローチを評価する。
その後,ロジットレンズやスパースオートエンコーダなど,メカニスティックな解釈可能性技術に基づいて,ほぼ自動戦略を開発する。
両手法が概念実証における秘密単語の抽出に有効であることを示す。
本研究は, これらの手法が隠れた知識を引き出す上で有望であることを示すとともに, より複雑なモデル生物に対してこれらの手法を試験・精錬するなど, 今後の研究に期待できる方法をいくつか提案する。
この作業は、言語モデルから秘密の知識を引き出すという重要な問題を解決するためのステップであり、それによって安全で信頼性の高いデプロイメントに寄与することを目的としています。
関連論文リスト
- Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles [2.134057414078079]
大きな言語モデル(LLM)は広く使われるようになり、セキュリティと堅牢性を保証することが重要である。
本稿では,このような大規模言語モデルによる知覚的相互作用に対する活用に焦点を当てた新しい研究を提案する。
以上の結果から,これらの大規模言語モデルが詐欺や社会工学的攻撃の影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2023-11-24T23:57:44Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Language Models as a Knowledge Source for Cognitive Agents [9.061356032792954]
言語モデル (LM) は大量のコーパスで訓練された文補完エンジンである。
本稿では,認知システムのための新たな知識源として言語モデルを用いる上での課題と機会について概説する。
また、認知システムが提供する能力を用いて、言語モデルからの知識抽出を改善する方法も特定する。
論文 参考訳(メタデータ) (2021-09-17T01:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。