論文の概要: Explorations of Self-Repair in Language Models
- arxiv url: http://arxiv.org/abs/2402.15390v1
- Date: Fri, 23 Feb 2024 15:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:13:07.411071
- Title: Explorations of Self-Repair in Language Models
- Title(参考訳): 言語モデルにおける自己修復の探求
- Authors: Cody Rushing, Neel Nanda
- Abstract要約: 個人の注意を損なう際には、様々なモデルファミリーやサイズに自己修復が存在していることを示す。
本稿では, 自己修復に寄与する2つのメカニズムを強調し, 最終段階のLayerNormスケーリング因子の変化と, アンチ・エロージャを実装した神経細胞のスパースセットについて述べる。
- 参考スコア(独自算出の注目度): 1.750111648077963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior interpretability research studying narrow distributions has
preliminarily identified self-repair, a phenomena where if components in large
language models are ablated, later components will change their behavior to
compensate. Our work builds off this past literature, demonstrating that
self-repair exists on a variety of models families and sizes when ablating
individual attention heads on the full training distribution. We further show
that on the full training distribution self-repair is imperfect, as the
original direct effect of the head is not fully restored, and noisy, since the
degree of self-repair varies significantly across different prompts (sometimes
overcorrecting beyond the original effect). We highlight two different
mechanisms that contribute to self-repair, including changes in the final
LayerNorm scaling factor (which can repair up to 30% of the direct effect) and
sparse sets of neurons implementing Anti-Erasure. We additionally discuss the
implications of these results for interpretability practitioners and close with
a more speculative discussion on the mystery of why self-repair occurs in these
models at all, highlighting evidence for the Iterative Inference hypothesis in
language models, a framework that predicts self-repair.
- Abstract(参考訳): 狭い分布を研究する以前の解釈可能性の研究は、大規模な言語モデルにおけるコンポーネントが廃止されると、後のコンポーネントがその振る舞いを変えて補う現象である自己修復を予め特定している。
私たちの研究は、過去の文献から成り立っており、個々の注意をトレーニングの完全な分布に向けると、さまざまなモデルの家族やサイズに自己修復が存在することを実証しています。
また、頭部の本来の直接効果が完全には回復せず、また、自己修復の程度が異なるプロンプト(時には元の効果を超えて過大に補正される)によって大きく異なるため、完全なトレーニング分布において自己修復は不完全であることを示す。
本稿では, 自己修復に寄与する2つのメカニズムを強調し, 最終因子であるLayerNormのスケーリング因子の変化(直接効果の最大30%を修復できる)と, アンチ・エラジャーを実装した神経細胞のスパースセットについて述べる。
さらに、これらの結果が解釈可能性実践者に与える影響についても論じ、また、これらのモデルになぜ自己修復が起こるのかというミステリーに関するより投機的な議論に近づき、自己修復を予測するフレームワークである言語モデルにおける反復推論仮説の証拠を強調した。
関連論文リスト
- Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - Measuring the Impact of Individual Domain Factors in Self-Supervised
Pre-Training [60.825471653739555]
音素領域因子は事前学習において重要な役割を担っているが,文法的・統語的要因はそれほど重要ではない。
本研究は,音声認識のための自己教師付き事前学習における事前学習セットのドメイン特性をよりよく理解するための最初の研究である。
論文 参考訳(メタデータ) (2022-03-01T17:40:51Z) - Variational Auto-Encoder Architectures that Excel at Causal Inference [26.731576721694648]
観測データから因果効果を推定することは、多くの種類の決定を下す上で重要である。
この課題に対処する1つのアプローチは、データの基礎となる要素の分解された表現を学習することである。
本稿では,変分オートエンコーダの最近の進歩を基盤とした生成的アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-11T22:37:43Z) - Shaking the foundations: delusions in sequence models for interaction
and control [45.34593341136043]
我々は、シーケンスモデルが「行動の原因と効果の理解を欠く」ことを示し、それらが自己提案的妄想によって誤った推論を引き出す結果となった。
教師付き学習では,実ミス信号と反実エラー信号とをそれぞれ学習することで,データに対する条件付けや介入をシステムに教えることができることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:31:05Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Visual Representation Learning Does Not Generalize Strongly Within the
Same Domain [41.66817277929783]
我々は、17の教師なし、弱弱教師付き、完全教師付き表現学習アプローチが、単純なデータセットの変動の生成要因を正しく推測するかどうかを検証した。
2000以上のモデルをトレーニングし、テストし、それらすべてが、監視信号やアーキテクチャバイアスに関係なく、基盤となるメカニズムを学ぶのに苦労していることを観察します。
論文 参考訳(メタデータ) (2021-07-17T11:24:18Z) - On the Interplay Between Fine-tuning and Sentence-level Probing for
Linguistic Knowledge in Pre-trained Transformers [24.858283637038422]
本稿では,BERT,RoBERTa,ALBERTの3種類の事前学習モデルについて検討する。
探究タスクの微調整によって精度が大幅に変化することを発見した。
ファインチューニングは、実際に事前訓練されたモデルの表現を変えるが、ごく少数のケースでのみ、ファインチューニングは探索精度に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-10-06T10:54:00Z) - A Critical View of the Structural Causal Model [89.43277111586258]
相互作用を全く考慮せずに原因と効果を識別できることが示される。
本稿では,因果モデルの絡み合った構造を模倣する新たな逆行訓練法を提案する。
我々の多次元手法は, 合成および実世界の両方のデータセットにおいて, 文献的手法よりも優れている。
論文 参考訳(メタデータ) (2020-02-23T22:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。