論文の概要: Not All Models Localize Linguistic Knowledge in the Same Place: A
Layer-wise Probing on BERToids' Representations
- arxiv url: http://arxiv.org/abs/2109.05958v1
- Date: Mon, 13 Sep 2021 13:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:08:05.667436
- Title: Not All Models Localize Linguistic Knowledge in the Same Place: A
Layer-wise Probing on BERToids' Representations
- Title(参考訳): すべてのモデルが同じ場所で言語知識をローカライズするわけではない:BERToidsの表現に基づく階層的探索
- Authors: Mohsen Fayyaz, Ehsan Aghazadeh, Ali Modarressi, Hosein Mohebbi,
Mohammad Taher Pilehvar
- Abstract要約: 事前学習対象やアーキテクチャ選択のバリエーションは、表現中の言語情報を符号化する際に異なる振る舞いをもたらす可能性があることを示す。
我々は、最小記述長の代替情報理論探索を採用しており、近年より信頼性が高く情報的な結果が得られることが証明されている。
- 参考スコア(独自算出の注目度): 17.54810016198216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the recent works on probing representations have focused on BERT,
with the presumption that the findings might be similar to the other models. In
this work, we extend the probing studies to two other models in the family,
namely ELECTRA and XLNet, showing that variations in the pre-training
objectives or architectural choices can result in different behaviors in
encoding linguistic information in the representations. Most notably, we
observe that ELECTRA tends to encode linguistic knowledge in the deeper layers,
whereas XLNet instead concentrates that in the earlier layers. Also, the former
model undergoes a slight change during fine-tuning, whereas the latter
experiences significant adjustments. Moreover, we show that drawing conclusions
based on the weight mixing evaluation strategy -- which is widely used in the
context of layer-wise probing -- can be misleading given the norm disparity of
the representations across different layers. Instead, we adopt an alternative
information-theoretic probing with minimum description length, which has
recently been proven to provide more reliable and informative results.
- Abstract(参考訳): 最近の研究の多くはBERTに焦点を当てており、他のモデルと類似している可能性があると推定されている。
本研究では,本研究をエレクトラとxlnetという2つのモデルに拡張し,事前学習目標やアーキテクチャ選択のバリエーションが,表現における言語情報のエンコーディングにおいて異なる行動をもたらすことを示した。
最も注目すべきは、ELECTRAはより深い層で言語知識をエンコードする傾向にあり、XLNetはそれ以前の層に集中していることです。
また、前者は微調整時にわずかに変化し、後者は大幅に調整される。
さらに,各層にまたがる表現の標準的相違を考えると,重み付け評価戦略に基づく結論が,層単位での探索の文脈で広く用いられていることは誤解を招く可能性があることを示す。
代わりに、最小記述長の代替情報理論探索を採用し、より信頼性が高く情報的な結果が得られることが最近証明された。
関連論文リスト
- Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Perturbed examples reveal invariances shared by language models [8.04604449335578]
2つのNLPモデルを比較するための新しいフレームワークを提案する。
このフレームワークは、同じおよび異なるアーキテクチャファミリーのモデルに関する実験であり、モデルの変化が言語機能にどのように影響するかについての洞察を提供する。
論文 参考訳(メタデータ) (2023-11-07T17:48:35Z) - The Benefits of Bad Advice: Autocontrastive Decoding across Model Layers [14.596485032985328]
モデル層間の漸進的な改善により、推論中に上位層と下位層のコントラストから追加情報を得ることが可能である、と我々は主張する。
テキスト生成出力を改善するために,レイヤ間のコントラストを利用した新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T17:42:37Z) - What does BERT learn about prosody? [1.1548853370822343]
モデルが学習する言語の構造情報に韻律が組み込まれているかどうかを考察する。
以上の結果から,韻律的優位性に関する情報は多くの層にまたがるが,中層に主眼を置いていることから,BERTは構文情報や意味情報に大きく依存していることが示唆された。
論文 参考訳(メタデータ) (2023-04-25T10:34:56Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Comparative layer-wise analysis of self-supervised speech models [29.258085176788097]
標準相関解析(CCA)に基づく軽量解析ツールを用いて、各層に符号化された音響・音声・単語レベルの特性を測定する。
これらの特性は、モデルによって異なる層間で進化し、その変動は事前学習対象の選択に関係している。
CCAのトレンドは、下流タスクの関心層を選択するための信頼性の高いガイダンスを提供し、シングルレイヤのパフォーマンスがすべてのレイヤで一致または改善されることに気付き、事前学習されたモデルをより効率的に使用するための意味を示唆している。
論文 参考訳(メタデータ) (2022-11-08T00:59:05Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - ABNIRML: Analyzing the Behavior of Neural IR Models [45.74073795558624]
BERTやT5のような事前訓練された言語モデルは、アドホック検索のための新しい最先端技術を確立した。
ニューラルIRモードL(ABNIRML)の挙動解析のための包括的枠組みを提案する。
我々は、ニューラルネットワークの利得に寄与する要因についての洞察を得るための実証的研究を行う。
論文 参考訳(メタデータ) (2020-11-02T03:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。