Fugu-MT 論文翻訳(概要): Explorations of Self-Repair in Language Models

論文の概要: Explorations of Self-Repair in Language Models

arxiv url: http://arxiv.org/abs/2402.15390v1
Date: Fri, 23 Feb 2024 15:42:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 14:13:07.411071
Title: Explorations of Self-Repair in Language Models
Title（参考訳）: 言語モデルにおける自己修復の探求
Authors: Cody Rushing, Neel Nanda
Abstract要約: 個人の注意を損なう際には、様々なモデルファミリーやサイズに自己修復が存在していることを示す。本稿では, 自己修復に寄与する2つのメカニズムを強調し, 最終段階のLayerNormスケーリング因子の変化と, アンチ・エロージャを実装した神経細胞のスパースセットについて述べる。
参考スコア（独自算出の注目度）: 1.750111648077963
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prior interpretability research studying narrow distributions has preliminarily identified self-repair, a phenomena where if components in large language models are ablated, later components will change their behavior to compensate. Our work builds off this past literature, demonstrating that self-repair exists on a variety of models families and sizes when ablating individual attention heads on the full training distribution. We further show that on the full training distribution self-repair is imperfect, as the original direct effect of the head is not fully restored, and noisy, since the degree of self-repair varies significantly across different prompts (sometimes overcorrecting beyond the original effect). We highlight two different mechanisms that contribute to self-repair, including changes in the final LayerNorm scaling factor (which can repair up to 30% of the direct effect) and sparse sets of neurons implementing Anti-Erasure. We additionally discuss the implications of these results for interpretability practitioners and close with a more speculative discussion on the mystery of why self-repair occurs in these models at all, highlighting evidence for the Iterative Inference hypothesis in language models, a framework that predicts self-repair.
Abstract（参考訳）: 狭い分布を研究する以前の解釈可能性の研究は、大規模な言語モデルにおけるコンポーネントが廃止されると、後のコンポーネントがその振る舞いを変えて補う現象である自己修復を予め特定している。私たちの研究は、過去の文献から成り立っており、個々の注意をトレーニングの完全な分布に向けると、さまざまなモデルの家族やサイズに自己修復が存在することを実証しています。また、頭部の本来の直接効果が完全には回復せず、また、自己修復の程度が異なるプロンプト(時には元の効果を超えて過大に補正される)によって大きく異なるため、完全なトレーニング分布において自己修復は不完全であることを示す。本稿では, 自己修復に寄与する2つのメカニズムを強調し, 最終因子であるLayerNormのスケーリング因子の変化(直接効果の最大30%を修復できる)と, アンチ・エラジャーを実装した神経細胞のスパースセットについて述べる。さらに、これらの結果が解釈可能性実践者に与える影響についても論じ、また、これらのモデルになぜ自己修復が起こるのかというミステリーに関するより投機的な議論に近づき、自己修復を予測するフレームワークである言語モデルにおける反復推論仮説の証拠を強調した。

関連論文リスト

Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文参考訳（メタデータ） (2025-06-18T21:35:44Z)
Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文参考訳（メタデータ） (2025-05-17T00:31:39Z)
Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。本稿では,自己改善のための数学的定式化について述べる。また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文参考訳（メタデータ） (2024-12-03T18:47:26Z)
Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文参考訳（メタデータ） (2024-11-11T17:57:30Z)
Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization [10.944365976254442]
大規模言語モデルにおける知識編集と未学習の方法は、性能を損なうことなく、望ましくない知識の編集や削除を試みている。異なる手法でローカライズされたトレーニングコンポーネントでは、学習の非学習と編集の堅牢性に大きな違いがある。
論文参考訳（メタデータ） (2024-10-16T18:35:02Z)
Unexpected Benefits of Self-Modeling in Neural Systems [0.7179624965454197]
人工ネットワークが内部状態を補助的タスクとして予測することを学ぶと、それらが根本的に変化することを示す。自己モデルタスクをより良く実行するために、ネットワークはよりシンプルで、より正規化され、よりパラメータ効率が良いものにすることを学ぶ。この自己正規化は、最近の機械学習文献で報告されている自己モデルの有用性を説明するのに役立つかもしれない。
論文参考訳（メタデータ） (2024-07-14T13:16:23Z)
Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文参考訳（メタデータ） (2024-06-09T16:58:19Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。生成したコンテンツの正確性と適切性に関する懸念が続いている。現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文参考訳（メタデータ） (2023-10-03T04:56:12Z)
Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文参考訳（メタデータ） (2023-07-12T01:11:52Z)
Properties from Mechanisms: An Equivariance Perspective on Identifiable Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文参考訳（メタデータ） (2021-10-29T14:04:08Z)
Shaking the foundations: delusions in sequence models for interaction and control [45.34593341136043]
我々は、シーケンスモデルが「行動の原因と効果の理解を欠く」ことを示し、それらが自己提案的妄想によって誤った推論を引き出す結果となった。教師付き学習では,実ミス信号と反実エラー信号とをそれぞれ学習することで,データに対する条件付けや介入をシステムに教えることができることを示す。
論文参考訳（メタデータ） (2021-10-20T23:31:05Z)
Visual Representation Learning Does Not Generalize Strongly Within the Same Domain [41.66817277929783]
我々は、17の教師なし、弱弱教師付き、完全教師付き表現学習アプローチが、単純なデータセットの変動の生成要因を正しく推測するかどうかを検証した。 2000以上のモデルをトレーニングし、テストし、それらすべてが、監視信号やアーキテクチャバイアスに関係なく、基盤となるメカニズムを学ぶのに苦労していることを観察します。
論文参考訳（メタデータ） (2021-07-17T11:24:18Z)
A Critical View of the Structural Causal Model [89.43277111586258]
相互作用を全く考慮せずに原因と効果を識別できることが示される。本稿では,因果モデルの絡み合った構造を模倣する新たな逆行訓練法を提案する。我々の多次元手法は, 合成および実世界の両方のデータセットにおいて, 文献的手法よりも優れている。
論文参考訳（メタデータ） (2020-02-23T22:52:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。