論文の概要: Towards Understanding the Word Sensitivity of Attention Layers: A Study
via Random Features
- arxiv url: http://arxiv.org/abs/2402.02969v1
- Date: Mon, 5 Feb 2024 12:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:07:04.200401
- Title: Towards Understanding the Word Sensitivity of Attention Layers: A Study
via Random Features
- Title(参考訳): 注意層の単語感受性の理解に向けて : ランダム特徴を用いた検討
- Authors: Simone Bombari and Marco Mondelli
- Abstract要約: ランダムな特徴の原型設定における単語感度(WS)について検討する。
注意層は高いWS、すなわち、ランダムな注意特徴写像を乱す埋め込み空間にベクトルが存在することを示す。
すると、これらの結果が単語の感度から一般化境界に変換される。
- 参考スコア(独自算出の注目度): 22.75453045287278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unveiling the reasons behind the exceptional success of transformers requires
a better understanding of why attention layers are suitable for NLP tasks. In
particular, such tasks require predictive models to capture contextual meaning
which often depends on one or few words, even if the sentence is long. Our work
studies this key property, dubbed word sensitivity (WS), in the prototypical
setting of random features. We show that attention layers enjoy high WS,
namely, there exists a vector in the space of embeddings that largely perturbs
the random attention features map. The argument critically exploits the role of
the softmax in the attention layer, highlighting its benefit compared to other
activations (e.g., ReLU). In contrast, the WS of standard random features is of
order $1/\sqrt{n}$, $n$ being the number of words in the textual sample, and
thus it decays with the length of the context. We then translate these results
on the word sensitivity into generalization bounds: due to their low WS, random
features provably cannot learn to distinguish between two sentences that differ
only in a single word; in contrast, due to their high WS, random attention
features have higher generalization capabilities. We validate our theoretical
results with experimental evidence over the BERT-Base word embeddings of the
imdb review dataset.
- Abstract(参考訳): トランスフォーマーの成功の背景にある理由を明らかにするには、注意層がnlpタスクに適している理由をより理解する必要がある。
特に、そのようなタスクは、たとえ文が長いとしても、しばしば1つまたは少数の単語に依存する文脈的意味を捉えるために予測モデルを必要とする。
本研究は, 単語感度(WS)と呼ばれる, ランダムな特徴の原型的設定において, この重要な特性について考察する。
注意層は高いWS、すなわち、ランダムな注意特徴写像を乱す埋め込み空間にベクトルが存在することを示す。
この議論は注意層におけるソフトマックスの役割を批判的に利用し、他のアクティベーション(例えばReLU)と比較してその利点を強調している。
対照的に、標準的なランダムな特徴の WS は順に 1/\sqrt{n}$, $n$ はテキストサンプル中の単語の数であり、したがってコンテキストの長さで減衰する。
次に、これらの単語の感度を一般化境界に変換する: それらの低いWSのため、ランダムな特徴は、単一の単語でのみ異なる2つの文を区別することが、確実に学べない; 対照的に、WSが高いので、ランダムな注意特徴はより高度な一般化能力を持つ。
我々は,Imdb レビューデータセットの BERT-Base 単語埋め込みに関する実験的な証拠を用いて理論的結果を検証する。
関連論文リスト
- Probing Context Localization of Polysemous Words in Pre-trained Language Model Sub-Layers [12.610445666406898]
プレトレーニング言語モデル(PLM)の細粒度サブレイヤ表現に符号化された文脈化の程度について検討する。
文脈化へのサブレイヤの主な貢献を識別するために、まず、最小限の異なる文対における多文単語のサブレイヤ表現を抽出する。
また,これらのサブレイヤ表現に符号化された文脈化情報の強みを実証的にローカライズする。
論文 参考訳(メタデータ) (2024-09-21T10:42:07Z) - Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Out of Order: How important is the sequential order of words in a
sentence in Natural Language Understanding tasks? [34.18339528128342]
最先端の自然言語理解モデルは、予測を行うときに単語の順序を気にしません。
BERTベースのモデルは、ランダムな順序でトークンが配置された場合、表面的な手がかりを利用して正しい決定を行う。
我々の研究は、多くのGLUEタスクが文の意味を理解するのに難題ではないことを示唆している。
論文 参考訳(メタデータ) (2020-12-30T14:56:12Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Subjective Question Answering: Deciphering the inner workings of
Transformers in the realm of subjectivity [0.0]
私は最近リリースされたSpat-selection Question Answering、すなわちSubjQAのデータセットを利用しています。
SubjQAは、6つの異なるドメインのレビュー項に対応する主観的な意見を求める質問を含む最初のデータセットである。
私はTransformerベースのアーキテクチャの内部動作を調査し、まだよく理解されていない"ブラックボックス"モデルの理解を深めるために貢献しました。
論文 参考訳(メタデータ) (2020-06-02T13:48:14Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。