論文の概要: An Explanation of Intrinsic Self-Correction via Linear Representations and Latent Concepts
- arxiv url: http://arxiv.org/abs/2505.11924v1
- Date: Sat, 17 May 2025 09:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.941247
- Title: An Explanation of Intrinsic Self-Correction via Linear Representations and Latent Concepts
- Title(参考訳): 線形表現と潜在概念による内在的自己補正の説明
- Authors: Yu-Ting Lee, Hui-Ying Shih, Fu-Chieh Chang, Pei-Yuan Wu,
- Abstract要約: 本報告では,本態性自己補正の性能向上について解説する。
隠れた状態における解釈可能な変化をいかに促すかを検討する。
自己補正が言語モデルの潜在概念認識能力を高めることを示す。
- 参考スコア(独自算出の注目度): 2.779063752888881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide an explanation for the performance gains of intrinsic self-correction, a process where a language model iteratively refines its outputs without external feedback. More precisely, we investigate how prompting induces interpretable changes in hidden states and thus affects the output distributions. We hypothesize that each prompt-induced shift lies in a linear span of some linear representation vectors, naturally separating tokens based on individual concept alignment. Building around this idea, we give a mathematical formulation of self-correction and derive a concentration result for output tokens based on alignment magnitudes. Our experiments on text detoxification with zephyr-7b-sft reveal a substantial gap in the inner products of the prompt-induced shifts and the unembeddings of the top-100 most toxic tokens vs. those of the unembeddings of the bottom-100 least toxic tokens, under toxic instructions. This suggests that self-correction prompts enhance a language model's capability of latent concept recognition. Our analysis offers insights into the underlying mechanism of self-correction by characterizing how prompting works explainably. For reproducibility, our code is available.
- Abstract(参考訳): 本稿では、言語モデルが外部からのフィードバックを伴わずに出力を反復的に洗練するプロセスである固有自己補正の性能向上について説明する。
より正確には、隠れ状態の解釈可能な変化を誘導し、出力分布にどのように影響するかを考察する。
それぞれのプロンプト誘起シフトは、ある線形表現ベクトルの線形スパン内にあり、個々の概念のアライメントに基づいてトークンを自然に分離する、という仮説を立てる。
この考え方に基づいて、自己補正の数学的定式化を行い、アライメントの規模に基づいて出力トークンの集中結果を導出する。
ゼフィア7b-sftを用いたテキストデトックス化実験では, 有毒な指示下において, 有毒な指示下において, 最上位100個の有毒なトークンの内積と, 最下位100個の有毒なトークンの非有毒なトークンの内積に有意な差が認められた。
このことは、自己補正が言語モデルの潜在概念認識能力を高めることを示唆している。
我々の分析は、自己補正のメカニズムに関する洞察を与え、どのようにプロンプトがどのように機能するかを説明的に特徴づける。
再現性のために、私たちのコードは利用可能です。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance [14.932352020762991]
本稿ではReason-Guided Fact-checking with Latent Explanations REFLEX paradigmを提案する。
バックボーンモデルの内部知識を活用して、検証精度と説明品質の両方を改善する、プラグアンドプレイの自己修正パラダイムである。
自己修正されたトレーニングサンプルはわずか465で、RELFEXは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-25T12:06:23Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - On the Convergence of Moral Self-Correction in Large Language Models [26.724972162483855]
大きな言語モデル(LLM)は、そのように指示されたときの応答を改善することができる。
LLMは、内在的な自己補正と呼ばれるプロセスである応答品質を改善するために、内部知識に頼らなければならない。
我々は,多ラウンド相互作用による性能収束という,本質的な自己補正のキーとなる特徴を明らかにする。
論文 参考訳(メタデータ) (2025-10-08T17:46:27Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Abstract Counterfactuals for Language Model Agents [3.7540612510652176]
抽象対物(Abstract Counterfactuals)は、環境内の行動と相互作用の高レベルな特徴を強調するフレームワークである。
トークンレベルと潜時空間の両方の介入を考慮して,テキストベースのゲームと対実テキスト生成の実験を行う。
論文 参考訳(メタデータ) (2025-06-03T14:44:26Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Computation Mechanism Behind LLM Position Generalization [59.013857707250814]
大規模言語モデル(LLM)は、テキストの位置を扱う際の柔軟性を示す。
彼らは位置摂動のあるテキストを理解し、より長いテキストに一般化することができる。
この研究は言語現象とLLMの計算機構を結びつける。
論文 参考訳(メタデータ) (2025-03-17T15:47:37Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence [6.991281327290525]
言語モデルは交換可能なトークンの概念を欠いている。
我々は、この機械学習問題を形式化し、α-共分散を導入する。
本研究は,交換可能なトークン表現を学習可能な言語モデルの設計基盤を確立した。
論文 参考訳(メタデータ) (2024-10-22T16:34:36Z) - Large Language Models have Intrinsic Self-Correction Ability [18.79203446847577]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な能力に対して大きな注目を集めている。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。
内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。
内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文 参考訳(メタデータ) (2024-06-04T14:55:43Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Sentence Embedding Leaks More Information than You Expect: Generative
Embedding Inversion Attack to Recover the Whole Sentence [37.63047048491312]
本稿では,文の埋め込みのみに基づいて入力シーケンスを再構築することを目的とした,ジェネレーティブな埋め込み反転攻撃(GEIA)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
論文 参考訳(メタデータ) (2023-05-04T17:31:41Z) - A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive
Learning Framework for Sentence Embeddings [28.046786376565123]
Pseudo-Token BERT (PT-BERT) と呼ばれる文埋め込みのための意味認識型コントラスト学習フレームワークを提案する。
文長や構文などの表面的特徴の影響を排除しつつ、文の擬似トーケン空間(潜在意味空間)表現を利用する。
我々のモデルは6つの標準的な意味的テキスト類似性(STS)タスクにおける最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-03-11T12:29:22Z) - Latent Space Explanation by Intervention [16.43087660376697]
本研究では,個別の変分オートエンコーダに基づいて,予測クラスをシフトする介入機構を用いることで,隠れた概念を明らかにすることを目的とする。
説明モデルは、任意の隠された層とその対応するインターバルド表現から符号化された情報を視覚化する。
論文 参考訳(メタデータ) (2021-12-09T13:23:19Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - SelfExplain: A Self-Explaining Architecture for Neural Text Classifiers [17.36827348795714]
selfexplain は句に基づく概念を用いてテキスト分類器の予測を説明する新しいフレームワークである。
自己説明は性能を犠牲にすることなく解釈性を促進する。
SelfExplainの説明は、人間の裁判官がより理解しやすく、適切に正当化し、信頼に値するものと認識されている。
論文 参考訳(メタデータ) (2021-03-23T03:07:21Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。