論文の概要: Monitoring Latent World States in Language Models with Propositional Probes
- arxiv url: http://arxiv.org/abs/2406.19501v2
- Date: Fri, 06 Dec 2024 21:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:50:59.626133
- Title: Monitoring Latent World States in Language Models with Propositional Probes
- Title(参考訳): 命題プローブを用いた言語モデルにおける潜在世界状態のモニタリング
- Authors: Jiahai Feng, Stuart Russell, Jacob Steinhardt,
- Abstract要約: 言語モデルは、バイアス、梅毒、バックドア、その他入力コンテキストに対する不誠実な応答につながる傾向に影響を受けやすい。
我々は、語彙情報のためのトークンを合成的にプローブし、それらを論理的命題に結合する「命題プローブ」を用いる。
言語モデルが入力コンテキストに不誠実に応答する3つの設定において、デコードされた命題が忠実であることに気付きました。
- 参考スコア(独自算出の注目度): 33.790893543774736
- License:
- Abstract: Language models are susceptible to bias, sycophancy, backdoors, and other tendencies that lead to unfaithful responses to the input context. Interpreting internal states of language models could help monitor and correct unfaithful behavior. We hypothesize that language models represent their input contexts in a latent world model, and seek to extract this latent world state from the activations. We do so with 'propositional probes', which compositionally probe tokens for lexical information and bind them into logical propositions representing the world state. For example, given the input context ''Greg is a nurse. Laura is a physicist.'', we decode the propositions ''WorksAs(Greg, nurse)'' and ''WorksAs(Laura, physicist)'' from the model's activations. Key to this is identifying a 'binding subspace' in which bound tokens have high similarity (''Greg'' and ''nurse'') but unbound ones do not (''Greg'' and ''physicist''). We validate propositional probes in a closed-world setting with finitely many predicates and properties. Despite being trained on simple templated contexts, propositional probes generalize to contexts rewritten as short stories and translated to Spanish. Moreover, we find that in three settings where language models respond unfaithfully to the input context -- prompt injections, backdoor attacks, and gender bias -- the decoded propositions remain faithful. This suggests that language models often encode a faithful world model but decode it unfaithfully, which motivates the search for better interpretability tools for monitoring LMs.
- Abstract(参考訳): 言語モデルは、バイアス、梅毒、バックドア、その他入力コンテキストに対する不誠実な応答につながる傾向に影響を受けやすい。
言語モデルの内部状態の解釈は、不誠実な振る舞いを監視し、修正するのに役立ちます。
我々は、言語モデルが潜在世界モデルにおける入力コンテキストを表現していると仮定し、この潜在世界状態を活性化から抽出しようと試みる。
我々は、語彙情報のためのトークンを合成的にプローブし、それらを世界国家を表す論理命題に結合する「命題プローブ」で実施する。
例えば、入力コンテキスト「グレッグは看護師だ。ローラは物理学者だ」とすると、モデルのアクティベーションから命題「WorksAs(Greg, nurse)」と「WorksAs(Laura, physicist)」をデコードする。
鍵となるのは、有界トークンが高い類似性('Greg' と 'Nurse')を持つが、非有界トークンはそうでない('Greg' と 'physicist')「結合部分空間」を同定することである。
有限個の述語と性質を持つ閉世界における命題プローブの検証を行う。
単純なテンプレート化された文脈で訓練されているにもかかわらず、命題プローブは、短編として書き直され、スペイン語に翻訳された文脈に一般化する。
さらに、言語モデルが入力コンテキスト – インジェクション、バックドアアタック、ジェンダーバイアス – に対して不誠実に応答する3つの設定では、デコードされた命題が忠実であることが分かりました。
これは、言語モデルは、しばしば忠実な世界モデルをエンコードするが、それを不誠実にデコードし、LMを監視するためのより良い解釈可能性ツールの探索を動機付けていることを示唆している。
関連論文リスト
- Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Emergent Representations of Program Semantics in Language Models Trained on Programs [3.376269351435396]
プログラムの形式的意味論を表現するために,コードの言語モデル(LM)が学習できることを示す。
本研究では,2次元グリッド環境をナビゲートするドメイン固有言語で記述されたプログラムの合成コーパス上でトランスフォーマーモデルを訓練する。
論文 参考訳(メタデータ) (2023-05-18T17:58:08Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Deanthropomorphising NLP: Can a Language Model Be Conscious? [7.41244589428771]
我々は、そのような大きな言語モデルは、センシティブでもなく、意識的にもなく、特にLaMDAは、その資格を持つ他の類似したモデルよりも進歩していないという立場を取る。
感性の主張は,NLP報告における人為的言語の使用傾向の広範化の一環と考えられる。
論文 参考訳(メタデータ) (2022-11-21T14:18:25Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。