論文の概要: An Interpretability Illusion for BERT
- arxiv url: http://arxiv.org/abs/2104.07143v1
- Date: Wed, 14 Apr 2021 22:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:14:06.190888
- Title: An Interpretability Illusion for BERT
- Title(参考訳): BERTの解釈可能性イリュージョン
- Authors: Tolga Bolukbasi, Adam Pearce, Ann Yuan, Andy Coenen, Emily Reif,
Fernanda Vi\'egas, Martin Wattenberg
- Abstract要約: BERTモデル解析時に生じる「解釈性イリュージョン」について述べる。
このイリュージョンの源をBERTの埋め込み空間の幾何学的性質にトレースする。
モデル学習概念の分類法を提供し,解釈可能性研究の方法論的意義について論じる。
- 参考スコア(独自算出の注目度): 61.2687465308121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe an "interpretability illusion" that arises when analyzing the
BERT model. Activations of individual neurons in the network may spuriously
appear to encode a single, simple concept, when in fact they are encoding
something far more complex. The same effect holds for linear combinations of
activations. We trace the source of this illusion to geometric properties of
BERT's embedding space as well as the fact that common text corpora represent
only narrow slices of possible English sentences. We provide a taxonomy of
model-learned concepts and discuss methodological implications for
interpretability research, especially the importance of testing hypotheses on
multiple data sets.
- Abstract(参考訳): BERTモデルを解析する際に生じる「解釈可能性錯覚」について述べる。
ネットワーク内の個々のニューロンの活性化は、1つの単純な概念をコードしているように思えるかもしれません。
同じ効果は、活性化の線形結合である。
この錯覚の源は、BERTの埋め込み空間の幾何学的性質と、共通テキストコーパスが可能な英文の狭いスライスのみを表すという事実に遡る。
本稿では,モデル学習概念の分類学を提供し,解釈可能性研究の方法論的意義,特に複数のデータセット上での仮説の検証の重要性について論じる。
関連論文リスト
- Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。
これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。
この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文 参考訳(メタデータ) (2023-06-07T21:35:26Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Semantic interpretation for convolutional neural networks: What makes a
cat a cat? [3.132595571344153]
意味論的説明可能なAI(S-XAI)の枠組みを紹介する。
S-XAIは、行中心の主成分分析を使用して、遺伝的アルゴリズムによって発見されたスーパーピクセルの最良の組み合わせから共通の特徴を得る。
発見された意味に敏感なニューロンと可視化技術に基づいて、理解可能な意味空間を抽出する。
論文 参考訳(メタデータ) (2022-04-16T05:25:17Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - Exploring the Role of BERT Token Representations to Explain Sentence
Probing Results [15.652077779677091]
BERTは特定のトークン表現において有意義な知識をエンコードする傾向にあることを示す。
これにより、シンタクティックとセマンティックの異常を検出し、文法的数とテンソル部分空間を一意に分離することができる。
論文 参考訳(メタデータ) (2021-04-03T20:40:42Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - INFOTABS: Inference on Tables as Semi-structured Data [39.84930221015755]
我々は,ウィキペディアのインフォボックスから抽出されたテーブルである前提に基づいて,人間によるテキスト仮説からなるINFOTABSという新しいデータセットを導入する。
解析の結果,半構造的,多領域的,異種的の性質は複雑で多面的推論を許容していることがわかった。
実験の結果、人間アノテータはテーブル-仮説のペア間の関係について合意する一方で、いくつかの標準的なモデリング戦略はそのタスクにおいて失敗していることがわかった。
論文 参考訳(メタデータ) (2020-05-13T02:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。