論文の概要: The Heuristic Core: Understanding Subnetwork Generalization in
Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2403.03942v1
- Date: Wed, 6 Mar 2024 18:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 13:52:00.503303
- Title: The Heuristic Core: Understanding Subnetwork Generalization in
Pretrained Language Models
- Title(参考訳): ヒューリスティックコア:事前学習言語モデルにおけるサブネットワークの一般化を理解する
- Authors: Adithya Bhaskar, Dan Friedman, Danqi Chen
- Abstract要約: 一つのモデル内であっても、ドメイン内でも同様に動作するが、大きく異なる複数の汎用ワークを見つけることができる。
本研究は, 予め訓練したLMにおける構文一般化機構について, より詳細な知見を提供するものである。
- 参考スコア(独自算出の注目度): 36.49067526743357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work has found that pretrained language models (LMs) fine-tuned with
different random seeds can achieve similar in-domain performance but generalize
differently on tests of syntactic generalization. In this work, we show that,
even within a single model, we can find multiple subnetworks that perform
similarly in-domain, but generalize vastly differently. To better understand
these phenomena, we investigate if they can be understood in terms of
"competing subnetworks": the model initially represents a variety of distinct
algorithms, corresponding to different subnetworks, and generalization occurs
when it ultimately converges to one. This explanation has been used to account
for generalization in simple algorithmic tasks. Instead of finding competing
subnetworks, we find that all subnetworks -- whether they generalize or not --
share a set of attention heads, which we refer to as the heuristic core.
Further analysis suggests that these attention heads emerge early in training
and compute shallow, non-generalizing features. The model learns to generalize
by incorporating additional attention heads, which depend on the outputs of the
"heuristic" heads to compute higher-level features. Overall, our results offer
a more detailed picture of the mechanisms for syntactic generalization in
pretrained LMs.
- Abstract(参考訳): 以前の研究によると、異なるランダムな種で微調整された事前学習言語モデル(lms)は、同様のドメイン内性能を達成することができるが、構文一般化のテストでは異なる一般化が可能である。
本研究では,単一モデル内であっても,ドメイン内でも同様に動作するが,大きく異なる一般化を行うサブネットワークが複数存在することを示す。
これらの現象をよりよく理解するために、「競合サブネットワーク」という用語で理解できるかどうかを検討する: モデルは最初は異なるサブネットワークに対応する様々な異なるアルゴリズムを表現し、最終的に1つに収束すると一般化が起こる。
この説明は、単純なアルゴリズムタスクの一般化を説明するために使われてきた。
競合するサブネットワークを見つける代わりに、すべてのサブネットワーク(一般化するかどうかに関わらず)が、ヒューリスティックコアと呼ばれる一連の注意ヘッドを共有していることに気付きます。
さらなる分析により、これらの注意は訓練の初期段階に現れ、浅い非一般化特徴を計算することが示唆された。
モデルは、より高度な特徴を計算するために「ヒューリスティック」ヘッドの出力に依存する追加の注意ヘッドを組み込むことで一般化することを学ぶ。
全体としては,事前学習したlmsにおける統語的一般化のメカニズムについて,より詳細な情報を提供する。
関連論文リスト
- Evaluating Structural Generalization in Neural Machine Translation [13.880151307013318]
SGETは,単語や文構造を制御して,様々な種類の合成一般化を包含するデータセットである。
ニューラルネットワーク翻訳モデルは、語彙的一般化よりも構造的一般化に苦慮していることを示す。
また、セマンティック解析と機械翻訳において、様々なタスクにおける評価の重要性を示す様々なパフォーマンストレンドを見出した。
論文 参考訳(メタデータ) (2024-06-19T09:09:11Z) - A separability-based approach to quantifying generalization: which layer is best? [0.0]
未確認データへの一般化は、ディープラーニングの分類と基礎モデルではよく理解されていない。
サンプル領域を表すネットワークのキャパシティを評価するための新しい手法を提案する。
i) 高い分類精度は高い一般化可能性を示すものではなく、(ii) モデルの深い層が必ずしも最良を一般化するとは限らない。
論文 参考訳(メタデータ) (2024-05-02T17:54:35Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - A Model of One-Shot Generalization [6.155604731137828]
ワンショット一般化(One-shot generalization)とは、ひとつのタスク内で伝達学習を行うアルゴリズムの能力である。
データモデルに対する最も直接的なニューラルネットワークアーキテクチャは、ほぼ完璧にワンショットの一般化を実行することを示す。
論文 参考訳(メタデータ) (2022-05-29T01:41:29Z) - Understanding Robust Generalization in Learning Regular Languages [85.95124524975202]
我々は、リカレントニューラルネットワークを用いて正規言語を学習する文脈における堅牢な一般化について研究する。
この問題に対処するための構成戦略を提案する。
構成戦略がエンド・ツー・エンド戦略よりもはるかに優れていることを理論的に証明する。
論文 参考訳(メタデータ) (2022-02-20T02:50:09Z) - Disentangled Sequence to Sequence Learning for Compositional
Generalization [62.954842223732435]
本稿では,ソース入力を適応的に再符号化することで,不整合表現の学習を可能にするシーケンス・ツー・シーケンス・モデルの拡張を提案する。
意味解析と機械翻訳の実験結果から,提案手法はより不整合な表現とより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2021-10-09T22:27:19Z) - Generalization in Multimodal Language Learning from Simulation [20.751952728808153]
教師付き時間連続設定で学習した最小限のLSTMネットワークにおいて、基礎となるトレーニングデータ分布が一般化に与える影響について検討する。
構成的一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善する。
論文 参考訳(メタデータ) (2021-08-03T12:55:18Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - An Online Learning Approach to Interpolation and Extrapolation in Domain
Generalization [53.592597682854944]
リスクを最小化するプレイヤーと新しいテストを示す敵の間のオンラインゲームとしてサブグループの一般化を再放送する。
両課題に対してERMは極小最適であることを示す。
論文 参考訳(メタデータ) (2021-02-25T19:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。