論文の概要: An Explanation of Intrinsic Self-Correction via Linear Representations and Latent Concepts
- arxiv url: http://arxiv.org/abs/2505.11924v1
- Date: Sat, 17 May 2025 09:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.941247
- Title: An Explanation of Intrinsic Self-Correction via Linear Representations and Latent Concepts
- Title(参考訳): 線形表現と潜在概念による内在的自己補正の説明
- Authors: Yu-Ting Lee, Hui-Ying Shih, Fu-Chieh Chang, Pei-Yuan Wu,
- Abstract要約: 本報告では,本態性自己補正の性能向上について解説する。
隠れた状態における解釈可能な変化をいかに促すかを検討する。
自己補正が言語モデルの潜在概念認識能力を高めることを示す。
- 参考スコア(独自算出の注目度): 2.779063752888881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide an explanation for the performance gains of intrinsic self-correction, a process where a language model iteratively refines its outputs without external feedback. More precisely, we investigate how prompting induces interpretable changes in hidden states and thus affects the output distributions. We hypothesize that each prompt-induced shift lies in a linear span of some linear representation vectors, naturally separating tokens based on individual concept alignment. Building around this idea, we give a mathematical formulation of self-correction and derive a concentration result for output tokens based on alignment magnitudes. Our experiments on text detoxification with zephyr-7b-sft reveal a substantial gap in the inner products of the prompt-induced shifts and the unembeddings of the top-100 most toxic tokens vs. those of the unembeddings of the bottom-100 least toxic tokens, under toxic instructions. This suggests that self-correction prompts enhance a language model's capability of latent concept recognition. Our analysis offers insights into the underlying mechanism of self-correction by characterizing how prompting works explainably. For reproducibility, our code is available.
- Abstract(参考訳): 本稿では、言語モデルが外部からのフィードバックを伴わずに出力を反復的に洗練するプロセスである固有自己補正の性能向上について説明する。
より正確には、隠れ状態の解釈可能な変化を誘導し、出力分布にどのように影響するかを考察する。
それぞれのプロンプト誘起シフトは、ある線形表現ベクトルの線形スパン内にあり、個々の概念のアライメントに基づいてトークンを自然に分離する、という仮説を立てる。
この考え方に基づいて、自己補正の数学的定式化を行い、アライメントの規模に基づいて出力トークンの集中結果を導出する。
ゼフィア7b-sftを用いたテキストデトックス化実験では, 有毒な指示下において, 有毒な指示下において, 最上位100個の有毒なトークンの内積と, 最下位100個の有毒なトークンの非有毒なトークンの内積に有意な差が認められた。
このことは、自己補正が言語モデルの潜在概念認識能力を高めることを示唆している。
我々の分析は、自己補正のメカニズムに関する洞察を与え、どのようにプロンプトがどのように機能するかを説明的に特徴づける。
再現性のために、私たちのコードは利用可能です。
関連論文リスト
- I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Sentence Embedding Leaks More Information than You Expect: Generative
Embedding Inversion Attack to Recover the Whole Sentence [37.63047048491312]
本稿では,文の埋め込みのみに基づいて入力シーケンスを再構築することを目的とした,ジェネレーティブな埋め込み反転攻撃(GEIA)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
論文 参考訳(メタデータ) (2023-05-04T17:31:41Z) - A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings [28.046786376565123]
Pseudo-Token BERT (PT-BERT) と呼ばれる文埋め込みのための意味認識型コントラスト学習フレームワークを提案する。
文長や構文などの表面的特徴の影響を排除しつつ、文の擬似トーケン空間(潜在意味空間)表現を利用する。
我々のモデルは6つの標準的な意味的テキスト類似性(STS)タスクにおける最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-03-11T12:29:22Z) - Latent Space Explanation by Intervention [16.43087660376697]
本研究では,個別の変分オートエンコーダに基づいて,予測クラスをシフトする介入機構を用いることで,隠れた概念を明らかにすることを目的とする。
説明モデルは、任意の隠された層とその対応するインターバルド表現から符号化された情報を視覚化する。
論文 参考訳(メタデータ) (2021-12-09T13:23:19Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - SelfExplain: A Self-Explaining Architecture for Neural Text Classifiers [17.36827348795714]
selfexplain は句に基づく概念を用いてテキスト分類器の予測を説明する新しいフレームワークである。
自己説明は性能を犠牲にすることなく解釈性を促進する。
SelfExplainの説明は、人間の裁判官がより理解しやすく、適切に正当化し、信頼に値するものと認識されている。
論文 参考訳(メタデータ) (2021-03-23T03:07:21Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。