論文の概要: Understanding Transformer Encoder-Decoder Representations through Bernoulli Dropout
- arxiv url: http://arxiv.org/abs/2601.17602v1
- Date: Sat, 24 Jan 2026 21:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.015691
- Title: Understanding Transformer Encoder-Decoder Representations through Bernoulli Dropout
- Title(参考訳): Bernoulli ドロップアウトによる変換器エンコーダデコーダ表現の理解
- Authors: Xuanzhou Chen,
- Abstract要約: エンコーダとデコーダの間にBernoulliのドロップアウトを適用し、保留確率を$p$に変化させ、疎度依存しきい値を特定する。
理論的には、有効空間埋め込みが十分に大きく、したがってデコーダ性能が適度な座標ドロップアウトの下で安定であることを証明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study Transformer overparameterization through the lens of angular similarity in high-dimensional encoder-decoder embeddings. We apply Bernoulli dropout between the encoder and the decoder, varying the keep probability $p$ to identify a sparsity-dependent threshold above which the Top-1 prediction is preserved. Theoretically, we prove that, if the effective sparsity embeddings is sufficiently large, and thus decoder performance, remain stable under moderate coordinate dropout. Empirically, we implement the Bernoulli dropout by constructing a new Transformer model augmented with Binary Erasure Channel (BEC) and test its performance on an English-French translation task. Experimental results visualize the trends for validation accuracies and BLEU scores, both decline sharply at some threshold.
- Abstract(参考訳): 高次元エンコーダデコーダ埋め込みにおける角相似レンズによるトランスフォーマー過度パラメータ化について検討した。
エンコーダとデコーダの間にBernoulliのドロップアウトを適用して、Top-1予測が保存されている空間依存しきい値を特定するために、保留確率$p$を変化させる。
理論的には、有効空間埋め込みが十分に大きく、したがってデコーダ性能が適度な座標ドロップアウトの下で安定であることを証明する。
本研究では,BEC(Binary Erasure Channel)を付加した新しいトランスフォーマーモデルを構築し,その性能を英仏翻訳タスクで検証することにより,Bernolliのドロップアウトを実現する。
実験結果は検証精度とBLEUスコアの傾向を可視化し, いずれも一定の閾値で急激に低下した。
関連論文リスト
- On Geometry Regularization in Autoencoder Reduced-Order Models with Latent Neural ODE Dynamics [0.0]
エンコーダ-デコーダ縮小順序モデルにおける学習潜在表現の幾何正規化戦略について検討する。
複数の種にまたがって、(a)cは、凍結オートエンコーダによる後続の潜伏力学の訓練を困難にする潜伏表現をしばしば生成する。
対照的に、(d)は学習した潜在力学の条件付け関連診断を一貫して改善し、ロールアウト性能が向上する傾向にある。
論文 参考訳(メタデータ) (2026-03-03T18:31:13Z) - Rate-Distortion Optimization for Transformer Inference [1.5378391391800512]
トランスフォーマーは多くのタスクにおいて優れたパフォーマンスを達成するが、推論中に大量の計算とメモリ要求を課す。
本稿では, 圧縮の損失を抑えるために, 圧縮の速度歪みに基づく基本的フレームワークを導入し, 圧縮の精度とトレードオフを明示するコンパクトエンコーディングを学習する。
論文 参考訳(メタデータ) (2026-01-29T17:12:46Z) - Generalization Bounds for Transformer Channel Decoders [61.55280736553095]
本稿では,ECCTの一般化性能を学習理論の観点から検討する。
我々の知る限りでは、この研究はこの種のデコーダに対する最初の理論的一般化保証を提供する。
論文 参考訳(メタデータ) (2026-01-11T15:56:37Z) - Pooling Attention: Evaluating Pretrained Transformer Embeddings for Deception Classification [0.0]
BERT埋め込みとロジスティック回帰は、LIARデータセット分割のニューラルネットワークよりも優れている。
この研究は、注意に基づくトークンエンコーダを、正確性タスクのための堅牢でアーキテクチャ中心の基盤として位置付けている。
論文 参考訳(メタデータ) (2025-11-28T08:32:49Z) - WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - Graph Neural Networks for Enhanced Decoding of Quantum LDPC Codes [6.175503577352742]
量子低密度パリティチェック(LDPC)符号に対する微分可能な反復デコーダを提案する。
提案アルゴリズムは,古典的信念伝達(BP)復号段階と中間グラフニューラルネットワーク(GNN)層から構成される。
論文 参考訳(メタデータ) (2023-10-26T19:56:25Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。