論文の概要: LatentQA: Teaching LLMs to Decode Activations Into Natural Language
- arxiv url: http://arxiv.org/abs/2412.08686v1
- Date: Wed, 11 Dec 2024 18:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 15:57:55.945731
- Title: LatentQA: Teaching LLMs to Decode Activations Into Natural Language
- Title(参考訳): LatentQA: LLMに自然言語へのアクティベーションのデコードを教える
- Authors: Alexander Pan, Lijie Chen, Jacob Steinhardt,
- Abstract要約: 自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
- 参考スコア(独自算出の注目度): 72.87064562349742
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interpretability methods seek to understand language model representations, yet the outputs of most such methods -- circuits, vectors, scalars -- are not immediately human-interpretable. In response, we introduce LatentQA, the task of answering open-ended questions about model activations in natural language. Towards solving LatentQA, we propose Latent Interpretation Tuning (LIT), which finetunes a decoder LLM on a dataset of activations and associated question-answer pairs, similar to how visual instruction tuning trains on question-answer pairs associated with images. We use the decoder for diverse reading applications, such as extracting relational knowledge from representations or uncovering system prompts governing model behavior. Our decoder also specifies a differentiable loss that we use to control models, such as debiasing models on stereotyped sentences and controlling the sentiment of generations. Finally, we extend LatentQA to reveal harmful model capabilities, such as generating recipes for bioweapons and code for hacking.
- Abstract(参考訳): 解釈可能性法は言語モデル表現を理解しようとするが、そのような手法(回路、ベクトル、スカラーなど)の出力は、すぐには解釈できない。
そこで本研究では,自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
LatentQAの解決に向けて、画像に関連付けられた質問応答対の視覚的指導訓練と同じように、アクティベーションと関連する質問応答対のデータセット上でデコーダLLMを微調整するLIT(Latent Interpretation Tuning)を提案する。
このデコーダは,表現から関係知識を抽出したり,システムの発見によってモデル動作の制御が促されるなど,多様な読み出し用途に使用される。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代感情の制御など、モデルを制御するために使用する差別化可能な損失も規定している。
最後に、LatentQAを拡張して、バイオ兵器のレシピ生成やハッキングのコードなど、有害なモデル機能を明らかにする。
関連論文リスト
- Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [31.632816425798108]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。
トークンと事前学習がバイアスやその他の望ましくないコンテンツのバックドアとして機能するかについて議論する。
トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文 参考訳(メタデータ) (2024-12-14T18:18:52Z) - Interpret the Internal States of Recommendation Model with Sparse Autoencoder [26.021277330699963]
RecSAEは、レコメンデーションモデルの内部状態を解釈するための、自動で一般化可能な探索手法である。
我々は、推薦モデルの内部アクティベーションを再構築するために、疎度制約付きオートエンコーダを訓練する。
我々は、潜在活性化と入力項目列の関係に基づき、概念辞書の構築を自動化した。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z) - LLMs can learn self-restraint through iterative self-reflection [57.26854891567574]
大規模言語モデル(LLM)は、特定のトピックに関連する知識と不確実性に基づいて、その振る舞いを動的に適応できなければならない。
この適応的行動は、私たちが自己規制と呼ぶもので、教えるのは簡単ではない。
モデルが信頼している場合にのみ応答を生成できるようにするユーティリティ関数を考案する。
論文 参考訳(メタデータ) (2024-05-15T13:35:43Z) - Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models [24.817659341654654]
我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い疑問にどのように答えられるかを示す。
本稿では,従来の表現を語彙空間に投影し,LLMに介入する手法の多くを,このフレームワークの例とみなすことができることを示す。
Patchscopesは、事前検査技術を統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明する、マルチホップ推論エラー修正などの新しい可能性も開放している。
論文 参考訳(メタデータ) (2024-01-11T18:33:48Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。
提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。
我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文 参考訳(メタデータ) (2023-09-23T11:22:28Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - Disentangling Generative Factors in Natural Language with Discrete
Variational Autoencoders [0.0]
連続変数は、テキスト中のほとんどの生成因子が離散的であるという事実から、テキストデータの特徴をモデル化するのに理想的ではないかもしれない。
本稿では,言語特徴を離散変数としてモデル化し,不整合表現を学習するための変数間の独立性を促進する変分自動符号化手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T09:10:05Z) - Interactively Generating Explanations for Transformer Language Models [14.306470205426526]
トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。
最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。
モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
論文 参考訳(メタデータ) (2021-09-02T11:34:29Z) - Exploring Neural Models for Parsing Natural Language into First-Order
Logic [10.62143644603835]
英文を1次論理(FOL)に解析する際のニューラルモデルの有用性について検討する。
自然言語文が与えられた場合のシーケンスマッピングタスクとしてFOL解析をモデル化し、LSTMを用いて中間表現に符号化し、次に対応するFOL式で述語を逐次生成するデコーダを用いる。
論文 参考訳(メタデータ) (2020-02-16T09:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。