論文の概要: Explorations of Self-Repair in Language Models
- arxiv url: http://arxiv.org/abs/2402.15390v1
- Date: Fri, 23 Feb 2024 15:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:13:07.411071
- Title: Explorations of Self-Repair in Language Models
- Title(参考訳): 言語モデルにおける自己修復の探求
- Authors: Cody Rushing, Neel Nanda
- Abstract要約: 個人の注意を損なう際には、様々なモデルファミリーやサイズに自己修復が存在していることを示す。
本稿では, 自己修復に寄与する2つのメカニズムを強調し, 最終段階のLayerNormスケーリング因子の変化と, アンチ・エロージャを実装した神経細胞のスパースセットについて述べる。
- 参考スコア(独自算出の注目度): 1.750111648077963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior interpretability research studying narrow distributions has
preliminarily identified self-repair, a phenomena where if components in large
language models are ablated, later components will change their behavior to
compensate. Our work builds off this past literature, demonstrating that
self-repair exists on a variety of models families and sizes when ablating
individual attention heads on the full training distribution. We further show
that on the full training distribution self-repair is imperfect, as the
original direct effect of the head is not fully restored, and noisy, since the
degree of self-repair varies significantly across different prompts (sometimes
overcorrecting beyond the original effect). We highlight two different
mechanisms that contribute to self-repair, including changes in the final
LayerNorm scaling factor (which can repair up to 30% of the direct effect) and
sparse sets of neurons implementing Anti-Erasure. We additionally discuss the
implications of these results for interpretability practitioners and close with
a more speculative discussion on the mystery of why self-repair occurs in these
models at all, highlighting evidence for the Iterative Inference hypothesis in
language models, a framework that predicts self-repair.
- Abstract(参考訳): 狭い分布を研究する以前の解釈可能性の研究は、大規模な言語モデルにおけるコンポーネントが廃止されると、後のコンポーネントがその振る舞いを変えて補う現象である自己修復を予め特定している。
私たちの研究は、過去の文献から成り立っており、個々の注意をトレーニングの完全な分布に向けると、さまざまなモデルの家族やサイズに自己修復が存在することを実証しています。
また、頭部の本来の直接効果が完全には回復せず、また、自己修復の程度が異なるプロンプト(時には元の効果を超えて過大に補正される)によって大きく異なるため、完全なトレーニング分布において自己修復は不完全であることを示す。
本稿では, 自己修復に寄与する2つのメカニズムを強調し, 最終因子であるLayerNormのスケーリング因子の変化(直接効果の最大30%を修復できる)と, アンチ・エラジャーを実装した神経細胞のスパースセットについて述べる。
さらに、これらの結果が解釈可能性実践者に与える影響についても論じ、また、これらのモデルになぜ自己修復が起こるのかというミステリーに関するより投機的な議論に近づき、自己修復を予測するフレームワークである言語モデルにおける反復推論仮説の証拠を強調した。
関連論文リスト
- Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization [10.944365976254442]
大規模言語モデルにおける知識編集と未学習の方法は、性能を損なうことなく、望ましくない知識の編集や削除を試みている。
異なる手法でローカライズされたトレーニングコンポーネントでは、学習の非学習と編集の堅牢性に大きな違いがある。
論文 参考訳(メタデータ) (2024-10-16T18:35:02Z) - Unexpected Benefits of Self-Modeling in Neural Systems [0.7179624965454197]
人工ネットワークが内部状態を補助的タスクとして予測することを学ぶと、それらが根本的に変化することを示す。
自己モデルタスクをより良く実行するために、ネットワークはよりシンプルで、より正規化され、よりパラメータ効率が良いものにすることを学ぶ。
この自己正規化は、最近の機械学習文献で報告されている自己モデルの有用性を説明するのに役立つかもしれない。
論文 参考訳(メタデータ) (2024-07-14T13:16:23Z) - Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2024-06-09T16:58:19Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - Shaking the foundations: delusions in sequence models for interaction
and control [45.34593341136043]
我々は、シーケンスモデルが「行動の原因と効果の理解を欠く」ことを示し、それらが自己提案的妄想によって誤った推論を引き出す結果となった。
教師付き学習では,実ミス信号と反実エラー信号とをそれぞれ学習することで,データに対する条件付けや介入をシステムに教えることができることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:31:05Z) - Visual Representation Learning Does Not Generalize Strongly Within the
Same Domain [41.66817277929783]
我々は、17の教師なし、弱弱教師付き、完全教師付き表現学習アプローチが、単純なデータセットの変動の生成要因を正しく推測するかどうかを検証した。
2000以上のモデルをトレーニングし、テストし、それらすべてが、監視信号やアーキテクチャバイアスに関係なく、基盤となるメカニズムを学ぶのに苦労していることを観察します。
論文 参考訳(メタデータ) (2021-07-17T11:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。