論文の概要: Bidirectional Attention as a Mixture of Continuous Word Experts
- arxiv url: http://arxiv.org/abs/2307.04057v2
- Date: Mon, 11 Dec 2023 05:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:29:39.008202
- Title: Bidirectional Attention as a Mixture of Continuous Word Experts
- Title(参考訳): 連続語エキスパートの混在としての双方向注意
- Authors: Kevin Christian Wibisono, Yixin Wang
- Abstract要約: 双方向アテンション$x2013$は、位置エンコーディングとマスキング言語を備えた自己アテンションで構成されている。
意図しない前者とは何が違うのか?
両方向の注意は、線形な単語の類似を示すために、はるかに強い仮定を必要とすることが示される。
- 参考スコア(独自算出の注目度): 23.43970575326816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bidirectional attention $\unicode{x2013}$ composed of self-attention with
positional encodings and the masked language model (MLM) objective
$\unicode{x2013}$ has emerged as a key component of modern large language
models (LLMs). Despite its empirical success, few studies have examined its
statistical underpinnings: What statistical model is bidirectional attention
implicitly fitting? What sets it apart from its non-attention predecessors? We
explore these questions in this paper. The key observation is that fitting a
single-layer single-head bidirectional attention, upon reparameterization, is
equivalent to fitting a continuous bag of words (CBOW) model with
mixture-of-experts (MoE) weights. Further, bidirectional attention with
multiple heads and multiple layers is equivalent to stacked MoEs and a mixture
of MoEs, respectively. This statistical viewpoint reveals the distinct use of
MoE in bidirectional attention, which aligns with its practical effectiveness
in handling heterogeneous data. It also suggests an immediate extension to
categorical tabular data, if we view each word location in a sentence as a
tabular feature. Across empirical studies, we find that this extension
outperforms existing tabular extensions of transformers in out-of-distribution
(OOD) generalization. Finally, this statistical perspective of bidirectional
attention enables us to theoretically characterize when linear word analogies
are present in its word embeddings. These analyses show that bidirectional
attention can require much stronger assumptions to exhibit linear word
analogies than its non-attention predecessors.
- Abstract(参考訳): 双方向注意$\unicode{x2013}$ 位置エンコーディングとマスク言語モデル(mlm)の目標 $\unicode{x2013}$ は、現代の大規模言語モデル(llm)の重要なコンポーネントとして登場した。
実証的な成功にもかかわらず、統計的基盤を調査する研究はほとんどない: 双方向の注意が暗黙的に適合する統計モデルは何だろうか?
意図しない前者とは何が違うのか?
この論文でこれらの疑問を探求する。
キーとなる観察は、再パラメータ化時に単層単頭双方向の注意を合わせることは、単語の連続袋(CBOW)モデルにミックスオブエキスパート(MoE)重みを付けることと等価である。
さらに、複数の頭部と複数の層を持つ双方向の注意は、積み重ねられたMoEとMoEの混合物と等価である。
この統計学的視点は,双方向注意におけるmoeの個別的利用を明らかにした。
また、文中の各単語の位置を表的特徴として見る場合、分類表データへの即時拡張も提案する。
実験的な研究全体にわたって、この拡張は、out-of-distribution (OOD) 一般化において、既存の変圧器の表層拡張よりも優れていることが判明した。
最後に、この双方向注意の統計的視点は、単語埋め込みに線形単語類似が存在する場合に理論的に特徴付けることができる。
これらの分析により、二方向の注意は、意図しない前者よりも線形な単語類似性を示すために、はるかに強い仮定を必要とすることが示された。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Human-in-the-loop: Towards Label Embeddings for Measuring Classification Difficulty [14.452983136429967]
教師付き学習では、トレーニングプロセスの第1段階、つまりアノテーションフェーズにおいて、すでに不確実性が発生する可能性がある。
この研究の主な考え方は、基礎となる真理ラベルの仮定を捨て、代わりにアノテーションを多次元空間に埋め込むことである。
本稿では,複数のアノテータが独立してインスタンスをラベル付けする,様々な状況に展開する手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T11:23:15Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - SBERT studies Meaning Representations: Decomposing Sentence Embeddings
into Explainable AMR Meaning Features [22.8438857884398]
非常に効果的な類似度メトリクスを作成しながら、評価の解釈可能な根拠を提供します。
まず、キーセマンティック・ファセットに対する文の類似性を測るAMRグラフメトリクスを選択します。
第二に、これらのメトリクスを用いてセマンティックな構造化文BERT埋め込みを誘導する。
論文 参考訳(メタデータ) (2022-06-14T17:37:18Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Effective Attention Sheds Light On Interpretability [3.317258557707008]
有効な注意を可視化することは、標準的な注意の解釈とは異なる結論を与えるかどうかを問う。
実効的な注意力は、言語モデリング事前学習に関連する特徴とあまり関連がないことを示す。
設計によって出力されるモデルに関係が深いため, 変圧器の挙動を研究する上で, 効果的な注意を払うことを推奨する。
論文 参考訳(メタデータ) (2021-05-18T23:41:26Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。