論文の概要: Norm of Mean Contextualized Embeddings Determines their Variance
- arxiv url: http://arxiv.org/abs/2409.11253v1
- Date: Tue, 17 Sep 2024 15:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 16:13:34.004302
- Title: Norm of Mean Contextualized Embeddings Determines their Variance
- Title(参考訳): 文脈的埋め込みのノルムが変化を決定する
- Authors: Hiroaki Yamagiwa, Hidetoshi Shimodaira,
- Abstract要約: コンテキスト化された埋め込みは、同じトークンであってもコンテキストによって異なり、埋め込み空間内の分布を形成する。
トランスフォーマーモデルの層が深まるにつれて、埋め込みは原点から遠く離れていることが示される。
これらの結果は、層間の埋め込み空間の異方性に関する既存の研究と一致している。
- 参考スコア(独自算出の注目度): 3.1921092049934647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextualized embeddings vary by context, even for the same token, and form a distribution in the embedding space. To analyze this distribution, we focus on the norm of the mean embedding and the variance of the embeddings. In this study, we first demonstrate that these values follow the well-known formula for variance in statistics and provide an efficient sequential computation method. Then, by observing embeddings from intermediate layers of several Transformer models, we found a strong trade-off relationship between the norm and the variance: as the mean embedding becomes closer to the origin, the variance increases. This trade-off is likely influenced by the layer normalization mechanism used in Transformer models. Furthermore, when the sets of token embeddings are treated as clusters, we show that the variance of the entire embedding set can theoretically be decomposed into the within-cluster variance and the between-cluster variance. We found experimentally that as the layers of Transformer models deepen, the embeddings move farther from the origin, the between-cluster variance relatively decreases, and the within-cluster variance relatively increases. These results are consistent with existing studies on the anisotropy of the embedding spaces across layers.
- Abstract(参考訳): コンテキスト化された埋め込みは、同じトークンであってもコンテキストによって異なり、埋め込み空間内の分布を形成する。
この分布を解析するために、平均埋め込みのノルムと埋め込みの分散に着目した。
本研究では,これらの値が統計の分散に関するよく知られた公式に従っていることをまず実証し,効率的な逐次計算法を提案する。
そして,複数のトランスフォーマーモデルの中間層からの埋め込みを観察することにより,ノルムと分散の間の強いトレードオフ関係を見出した。
このトレードオフは、Transformerモデルで使用されるレイヤ正規化メカニズムの影響を受けている可能性が高い。
さらに,トークン埋め込みの集合をクラスタとして扱うと,埋め込み集合全体の分散を理論的にクラスタ内分散とクラスタ間分散に分解できることを示す。
実験により,トランスフォーマーモデルの層が深くなるにつれて,埋め込みは起源から遠く離れ,クラスタ間分散は相対的に減少し,クラスタ内分散は相対的に増加することがわかった。
これらの結果は、層間の埋め込み空間の異方性に関する既存の研究と一致している。
関連論文リスト
- Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Variational excess risk bound for general state space models [0.0]
一般状態空間モデルに対する変分オートエンコーダ(VAE)について検討する。
本稿では, 変動分布の逆因数分解について検討し, VAEに関連する余剰リスクを解析する。
論文 参考訳(メタデータ) (2023-12-15T08:41:07Z) - Supervised Contrastive Learning with Heterogeneous Similarity for
Distribution Shifts [3.7819322027528113]
本稿では,教師付きコントラスト学習を用いた新たな正規化手法を提案する。
サブポピュレーションシフトや領域一般化などの分布シフトをエミュレートするベンチマークデータセットの実験は,提案手法の利点を実証している。
論文 参考訳(メタデータ) (2023-04-07T01:45:09Z) - Reliable amortized variational inference with physics-based latent
distribution correction [0.4588028371034407]
ニューラルネットワークは、既存のモデルとデータのペアの後方分布を近似するように訓練される。
このアプローチの精度は、高忠実度トレーニングデータの可用性に依存する。
補正ステップは, ソース実験数の変化, ノイズ分散, 先行分布の変化に対して, 償却された変分推論の頑健さを向上することを示す。
論文 参考訳(メタデータ) (2022-07-24T02:38:54Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Robust Calibration with Multi-domain Temperature Scaling [86.07299013396059]
我々は,複数の領域からのデータを活用することで,分散シフトを処理するシステムキャリブレーションモデルを開発した。
提案手法は,分布シフト時のキャリブレーションを改善するために,領域内のロバスト性を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:32:12Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Robust Correction of Sampling Bias Using Cumulative Distribution
Functions [19.551668880584973]
変数ドメインとバイアス付きデータセットは、トレーニングとターゲット分布の違いにつながる可能性がある。
これを緩和するための現在のアプローチは、しばしばトレーニングとターゲット確率密度関数の比率を推定することに依存する。
論文 参考訳(メタデータ) (2020-10-23T22:13:00Z) - Approximation Based Variance Reduction for Reparameterization Gradients [38.73307745906571]
柔軟な変分分布は変分推論を改善するが、最適化は困難である。
既知平均と共分散行列を持つ任意の可逆分布に適用可能な制御変数を提案する。
これは、非分解的変分分布の推論に対する勾配分散と最適化収束の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2020-07-29T06:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。