論文の概要: Intrinsic Self-Correction in LLMs: Towards Explainable Prompting via Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2505.11924v2
- Date: Sun, 19 Oct 2025 09:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.309476
- Title: Intrinsic Self-Correction in LLMs: Towards Explainable Prompting via Mechanistic Interpretability
- Title(参考訳): LLMにおける固有の自己補正:機械的解釈可能性による説明可能なプロンプトを目指して
- Authors: Yu-Ting Lee, Fu-Chieh Chang, Hui-Ying Shih, Pei-Yuan Wu,
- Abstract要約: 表現レベルの観点から本質的な自己補正を解析する。
テキストのデトキシフィケーションとテキストのトキシフィケーションの急激な変化は、対照的なペアから構築された潜在方向と一致していることがわかった。
これらの結果から,本質的な自己補正関数は,解釈可能な潜在方向に沿った表象ステアリングとして機能することが示唆された。
- 参考スコア(独自算出の注目度): 3.10918115767149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intrinsic self-correction refers to the phenomenon where a language model refines its own outputs purely through prompting, without external feedback or parameter updates. While this approach improves performance across diverse tasks, its internal mechanism remains poorly understood. We analyze intrinsic self-correction from a representation-level perspective. We formalize and introduce the notion of a prompt-induced shift, which is the change in hidden representations caused by a self-correction prompt. Across 5 open-source LLMs, prompt-induced shifts in text detoxification and text toxification align with latent directions constructed from contrastive pairs. In detoxification, the shifts align with the non-toxic direction; in toxification, they align with the toxic direction. These results suggest that intrinsic self-correction functions as representation steering along interpretable latent directions, beyond what standard metrics such as task scores or model confidence capture. Our analysis offers an interpretability-based account of intrinsic self-correction and contributes to a more systematic understanding of LLM prompting.
- Abstract(参考訳): 固有の自己補正とは、外部からのフィードバックやパラメータの更新なしに、プロンプトによって言語モデルが独自の出力を純粋に洗練する現象を指す。
このアプローチは様々なタスクのパフォーマンスを改善するが、内部メカニズムはいまだに理解されていない。
表現レベルの観点から本質的な自己補正を解析する。
我々は,自己補正プロンプトによって引き起こされる隠蔽表現の変化である,プロンプト誘起シフトの概念を定式化し,導入する。
5つのオープンソース LLM にまたがって、テキストのデトキシフィケーションとテキストのトキシフィケーションの急激なシフトは、対照的なペアから構築された遅延方向と一致している。
解毒では、シフトは毒性のない方向と一致し、毒化では毒性のある方向と一致している。
これらの結果から,本質的な自己補正関数は,タスクスコアやモデル信頼獲得といった標準指標を超えて,解釈可能な潜在方向に沿って操作する表現的自己補正関数であることが示唆された。
我々の分析は、本質的な自己補正の解釈可能性に基づく説明を提供し、LLMプロンプトのより体系的な理解に寄与する。
関連論文リスト
- Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence [6.991281327290525]
言語モデルは交換可能なトークンの概念を欠いている。
我々は、この機械学習問題を形式化し、α-共分散を導入する。
本研究は,交換可能なトークン表現を学習可能な言語モデルの設計基盤を確立した。
論文 参考訳(メタデータ) (2024-10-22T16:34:36Z) - Sentence Embedding Leaks More Information than You Expect: Generative
Embedding Inversion Attack to Recover the Whole Sentence [37.63047048491312]
本稿では,文の埋め込みのみに基づいて入力シーケンスを再構築することを目的とした,ジェネレーティブな埋め込み反転攻撃(GEIA)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
論文 参考訳(メタデータ) (2023-05-04T17:31:41Z) - A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings [28.046786376565123]
Pseudo-Token BERT (PT-BERT) と呼ばれる文埋め込みのための意味認識型コントラスト学習フレームワークを提案する。
文長や構文などの表面的特徴の影響を排除しつつ、文の擬似トーケン空間(潜在意味空間)表現を利用する。
我々のモデルは6つの標準的な意味的テキスト類似性(STS)タスクにおける最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-03-11T12:29:22Z) - Latent Space Explanation by Intervention [16.43087660376697]
本研究では,個別の変分オートエンコーダに基づいて,予測クラスをシフトする介入機構を用いることで,隠れた概念を明らかにすることを目的とする。
説明モデルは、任意の隠された層とその対応するインターバルド表現から符号化された情報を視覚化する。
論文 参考訳(メタデータ) (2021-12-09T13:23:19Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - SelfExplain: A Self-Explaining Architecture for Neural Text Classifiers [17.36827348795714]
selfexplain は句に基づく概念を用いてテキスト分類器の予測を説明する新しいフレームワークである。
自己説明は性能を犠牲にすることなく解釈性を促進する。
SelfExplainの説明は、人間の裁判官がより理解しやすく、適切に正当化し、信頼に値するものと認識されている。
論文 参考訳(メタデータ) (2021-03-23T03:07:21Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。