Fugu-MT 論文翻訳(概要): The Hydra Effect: Emergent Self-repair in Language Model Computations

論文の概要: The Hydra Effect: Emergent Self-repair in Language Model Computations

arxiv url: http://arxiv.org/abs/2307.15771v1
Date: Fri, 28 Jul 2023 19:13:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 19:34:16.245160
Title: The Hydra Effect: Emergent Self-repair in Language Model Computations
Title（参考訳）: Hydra効果: 言語モデル計算における創発的自己修復
Authors: Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg
Abstract要約: 因果解析を用いた言語モデル計算の内部構造について検討する。 1) 言語モデルの1つの注意層のアブレーションによって別のレイヤが別のレイヤを発生させる適応型計算の形式を示す。我々はこれらの効果を事実記憶の文脈で分析し、それらが言語モデルにおける回路レベルの属性に与える影響を考察する。
参考スコア（独自算出の注目度）: 8.323441767835257
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the internal structure of language model computations using causal analysis and demonstrate two motifs: (1) a form of adaptive computation where ablations of one attention layer of a language model cause another layer to compensate (which we term the Hydra effect) and (2) a counterbalancing function of late MLP layers that act to downregulate the maximum-likelihood token. Our ablation studies demonstrate that language model layers are typically relatively loosely coupled (ablations to one layer only affect a small number of downstream layers). Surprisingly, these effects occur even in language models trained without any form of dropout. We analyse these effects in the context of factual recall and consider their implications for circuit-level attribution in language models.
Abstract（参考訳）: 因果解析を用いて言語モデル計算の内部構造を調査し,(1)言語モデルの1つの注意層のアブレーションが他のレイヤを補償する(Hydra効果と呼ぶ)適応計算の形式,(2)最大形トークンのダウンレギュレーションに作用する後期MLP層の逆バランシング関数の2つのモチーフを示す。私たちのアブレーション研究は、言語モデル層が一般的に比較的疎結合であることを示している(一つの層へのアブレーションは少数の下流層にのみ影響する)。驚くべきことに、これらの効果はドロップアウトのない言語モデルでも起こります。これらの影響を事実リコールの文脈で分析し,言語モデルにおける回路レベルの帰属に対する影響を検討する。

関連論文リスト

Model Internal Sleuthing: Finding Lexical Identity and Inflectional Morphology in Modern Language Models [5.317065202153858]
25のモデルが6言語にまたがる語彙的同一性や屈折形態をどう表現するかを考察する。モデルは、初期層に線形に語彙情報を集中し、後期層に非線形に集中することを発見した。注目すべきは、これらのエンコーディングパターンは、アーキテクチャ、サイズ、トレーニング体制の違いにもかかわらず、テストするすべてのモデルにまたがって現れます。
論文参考訳（メタデータ） (2025-06-02T18:01:56Z)
DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文参考訳（メタデータ） (2025-02-25T16:44:10Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
Learning thresholds lead to stable language coexistence [0.0]
本稿では,言語シフトダイナミクスにおける記憶と学習の効果を組み込んだ言語競合モデルを提案する。粗い時間スケールでは、記憶と学習の影響は、競合する言語の話者分数に対する閾値として表すことができる。
論文参考訳（メタデータ） (2024-06-14T14:24:02Z)
Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文参考訳（メタデータ） (2024-06-13T18:12:01Z)
Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文参考訳（メタデータ） (2024-04-29T17:58:36Z)
Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models using Minimal Pairs [0.873811641236639]
本稿では,ニューラルネットワークモデル層の内部言語特性を層単位で探索する新しい復号探索手法を提案する。言語モデルを脳として扱い、その表現をニューラルアクティベーションとして扱うことにより、中間層の表現から最小対の文法ラベルをデコードする。
論文参考訳（メタデータ） (2024-03-26T00:56:06Z)
CausalGym: Benchmarking causal interpretability methods on linguistic tasks [52.61917615039112]
CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。 DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
論文参考訳（メタデータ） (2024-02-19T21:35:56Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Modeling Target-Side Morphology in Neural Machine Translation: A Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文参考訳（メタデータ） (2022-03-25T10:13:20Z)
Examining Scaling and Transfer of Language Model Architectures for Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文参考訳（メタデータ） (2022-02-01T16:20:15Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Linguistically inspired morphological inflection with a sequence to sequence model [19.892441884896893]
我々の研究課題は、ニューラルネットワークが反射生成のための屈折形態を学習できるかどうかである。我々は、この仮説をテストするために、屈折コーパスと単一の層Seq2seqモデルを使用している。キャラクタ・ツー・キャラクタとインフレクションアフィクスをキャラクタブロックとして予測することにより,文字形態に基づくモデルでインフレクションを生成する。
論文参考訳（メタデータ） (2020-09-04T08:58:42Z)
CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文参考訳（メタデータ） (2020-05-27T15:06:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。