論文の概要: On the Importance of Local Information in Transformer Based Models
- arxiv url: http://arxiv.org/abs/2008.05828v1
- Date: Thu, 13 Aug 2020 11:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:28:26.135742
- Title: On the Importance of Local Information in Transformer Based Models
- Title(参考訳): 変圧器モデルにおける局所情報の重要性について
- Authors: Madhura Pande, Aakriti Budhraja, Preksha Nema, Pratyush Kumar, Mitesh
M. Khapra
- Abstract要約: 自己保持モジュールはTransformerベースのモデルのキーコンポーネントである。
最近の研究では、これらの頭は統語的、意味的、または局所的な行動を示すことが示されている。
その結果, 頭部の局所性バイアスは, 統語的バイアスに比べて大きいことが判明した。
- 参考スコア(独自算出の注目度): 19.036044858449593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The self-attention module is a key component of Transformer-based models,
wherein each token pays attention to every other token. Recent studies have
shown that these heads exhibit syntactic, semantic, or local behaviour. Some
studies have also identified promise in restricting this attention to be local,
i.e., a token attending to other tokens only in a small neighbourhood around
it. However, no conclusive evidence exists that such local attention alone is
sufficient to achieve high accuracy on multiple NLP tasks. In this work, we
systematically analyse the role of locality information in learnt models and
contrast it with the role of syntactic information. More specifically, we first
do a sensitivity analysis and show that, at every layer, the representation of
a token is much more sensitive to tokens in a small neighborhood around it than
to tokens which are syntactically related to it. We then define an attention
bias metric to determine whether a head pays more attention to local tokens or
to syntactically related tokens. We show that a larger fraction of heads have a
locality bias as compared to a syntactic bias. Having established the
importance of local attention heads, we train and evaluate models where varying
fractions of the attention heads are constrained to be local. Such models would
be more efficient as they would have fewer computations in the attention layer.
We evaluate these models on 4 GLUE datasets (QQP, SST-2, MRPC, QNLI) and 2 MT
datasets (En-De, En-Ru) and clearly demonstrate that such constrained models
have comparable performance to the unconstrained models. Through this
systematic evaluation we establish that attention in Transformer-based models
can be constrained to be local without affecting performance.
- Abstract(参考訳): 自己アテンションモジュールはTransformerベースのモデルのキーコンポーネントであり、各トークンは他のトークンすべてに注意を払う。
近年の研究では、これらの頭部が統語論、意味論、あるいは局所的な行動を示すことが示されている。
いくつかの研究は、この注意を局所的であると制限する約束、すなわち周辺の小さな地域のみに他のトークンに出席するトークンも特定している。
しかし、そのような局所的な注意だけで複数のNLPタスクにおいて高い精度を達成できるという決定的な証拠は存在しない。
本研究では,学習モデルにおける局所情報の役割を体系的に分析し,構文情報の役割と対比する。
より具体的には、まず感度分析を行い、すべての層において、トークンの表現は、その周りの小さな近所のトークンに対して、シンタクティックに関連するトークンよりもはるかに敏感であることを示す。
次に注意バイアスメトリクスを定義して、頭がローカルトークンにもっと注意を払うか、あるいは構文的に関連するトークンに注意を払うかを決定する。
その結果, 頭部の局所性バイアスは, 統語的バイアスに比べて大きいことが判明した。
ローカルアテンションヘッドの重要性を確立した私たちは、アテンションヘッドの異なる割合をローカルに制限したモデルをトレーニングし、評価します。
このようなモデルは注意層での計算が少なくなるため、より効率的である。
これらのモデルを,4つのGLUEデータセット(QQP,SST-2,MRPC,QNLI)と2つのMTデータセット(En-De,En-Ru)で評価し,制約のないモデルに匹敵する性能を示す。
この体系的評価により、トランスフォーマーモデルにおける注意は、性能に影響を与えずに局所的に制約できることを示す。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - FedDistill: Global Model Distillation for Local Model De-Biasing in Non-IID Federated Learning [10.641875933652647]
フェデレートラーニング(FL)は、協調機械学習を可能にする新しいアプローチである。
FLは、クライアント間で均一に分散されていない(非ID)データのために、課題に直面します。
本稿では,グローバルモデルからローカルモデルへの知識伝達を促進するフレームワークであるFedDistillを紹介する。
論文 参考訳(メタデータ) (2024-04-14T10:23:30Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Federated Learning of Models Pre-Trained on Different Features with
Consensus Graphs [19.130197923214123]
プライベートデータセットと分散データセットで効果的なグローバルモデルを学ぶことは、機械学習においてますます重要な課題になりつつある。
本稿では,局所モデルから局所表現を抽出し,それらをグローバル表現に組み込んで予測性能を向上させる特徴融合手法を提案する。
本稿では,これらの問題に対する解決策を提示し,電力網や交通網などの時系列データを用いた実世界の応用例を示す。
論文 参考訳(メタデータ) (2023-06-02T02:24:27Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - S2RL: Do We Really Need to Perceive All States in Deep Multi-Agent
Reinforcement Learning? [26.265100805551764]
協調型マルチエージェント強化学習(MARL)は多くの実践的応用で広く利用されている。
局所観測における無関係情報を捨てるために,スパースアテンション機構を利用したスパース状態ベースMARLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-20T07:33:40Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - Improve the Interpretability of Attention: A Fast, Accurate, and
Interpretable High-Resolution Attention Model [6.906621279967867]
そこで本稿では,タスク関連情報を取り込むための,非線形代表非パラメトリックアテンション(BR-NPA)戦略を提案する。
提案したモデルは、分類が関与する様々な近代的な深層モデルに容易に適応できる。
また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。
論文 参考訳(メタデータ) (2021-06-04T15:57:37Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。