Fugu-MT 論文翻訳(概要): Understanding Transformer Encoder-Decoder Representations through Bernoulli Dropout

論文の概要: Understanding Transformer Encoder-Decoder Representations through Bernoulli Dropout

arxiv url: http://arxiv.org/abs/2601.17602v1
Date: Sat, 24 Jan 2026 21:35:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-27 15:23:08.015691
Title: Understanding Transformer Encoder-Decoder Representations through Bernoulli Dropout
Title（参考訳）: Bernoulli ドロップアウトによる変換器エンコーダデコーダ表現の理解
Authors: Xuanzhou Chen,
Abstract要約: エンコーダとデコーダの間にBernoulliのドロップアウトを適用し、保留確率を$p$に変化させ、疎度依存しきい値を特定する。理論的には、有効空間埋め込みが十分に大きく、したがってデコーダ性能が適度な座標ドロップアウトの下で安定であることを証明する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study Transformer overparameterization through the lens of angular similarity in high-dimensional encoder-decoder embeddings. We apply Bernoulli dropout between the encoder and the decoder, varying the keep probability $p$ to identify a sparsity-dependent threshold above which the Top-1 prediction is preserved. Theoretically, we prove that, if the effective sparsity embeddings is sufficiently large, and thus decoder performance, remain stable under moderate coordinate dropout. Empirically, we implement the Bernoulli dropout by constructing a new Transformer model augmented with Binary Erasure Channel (BEC) and test its performance on an English-French translation task. Experimental results visualize the trends for validation accuracies and BLEU scores, both decline sharply at some threshold.
Abstract（参考訳）: 高次元エンコーダデコーダ埋め込みにおける角相似レンズによるトランスフォーマー過度パラメータ化について検討した。エンコーダとデコーダの間にBernoulliのドロップアウトを適用して、Top-1予測が保存されている空間依存しきい値を特定するために、保留確率$p$を変化させる。理論的には、有効空間埋め込みが十分に大きく、したがってデコーダ性能が適度な座標ドロップアウトの下で安定であることを証明する。本研究では,BEC(Binary Erasure Channel)を付加した新しいトランスフォーマーモデルを構築し,その性能を英仏翻訳タスクで検証することにより,Bernolliのドロップアウトを実現する。実験結果は検証精度とBLEUスコアの傾向を可視化し, いずれも一定の閾値で急激に低下した。

関連論文リスト

Pooling Attention: Evaluating Pretrained Transformer Embeddings for Deception Classification [0.0]
BERT埋め込みとロジスティック回帰は、LIARデータセット分割のニューラルネットワークよりも優れている。この研究は、注意に基づくトークンエンコーダを、正確性タスクのための堅牢でアーキテクチャ中心の基盤として位置付けている。
論文参考訳（メタデータ） (2025-11-28T08:32:49Z)
Graph Neural Networks for Enhanced Decoding of Quantum LDPC Codes [6.175503577352742]
量子低密度パリティチェック(LDPC)符号に対する微分可能な反復デコーダを提案する。提案アルゴリズムは,古典的信念伝達(BP)復号段階と中間グラフニューラルネットワーク(GNN)層から構成される。
論文参考訳（メタデータ） (2023-10-26T19:56:25Z)
Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文参考訳（メタデータ） (2023-07-17T07:12:29Z)
Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。 KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。 KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文参考訳（メタデータ） (2023-03-31T15:44:13Z)
Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-05-21T06:11:33Z)
On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文参考訳（メタデータ） (2020-04-24T16:57:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。