論文の概要: Variational Neurons in Transformers for Language Modeling
- arxiv url: http://arxiv.org/abs/2603.28219v1
- Date: Mon, 30 Mar 2026 09:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.325058
- Title: Variational Neurons in Transformers for Language Modeling
- Title(参考訳): 言語モデリングのための変圧器の変分ニューロン
- Authors: Yves Ruffenach,
- Abstract要約: 変分ニューロンをトランスフォーマーフィードフォワード計算に導入し、不確実性が内部計算自体の一部となるようにする。
我々は、この設計をコンパクトな次世代言語モデリング設定で評価する。
その結果,不確実性を考慮した言語モデリングの実践形態として変分変換器が確立された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers for language modeling usually rely on deterministic internal computation, with uncertainty expressed mainly at the output layer. We introduce variational neurons into Transformer feed-forward computation so that uncertainty becomes part of the internal computation itself. Concretely, we replace deterministic feed-forward units with local variational units based on EVE while preserving the overall Transformer backbone. We evaluate this design in compact next-token language-modeling settings. We compare deterministic and variational variants with both predictive and probabilistic criteria. Alongside negative log-likelihood, perplexity and accuracy, we analyze calibration, conditional variance, mutual information and latent-usage statistics. The resulting picture is clear. Variational neurons integrate stably into Transformers, preserve strong predictive performance and produce informative uncertainty signals. The experiments also show that task quality, useful depth and internal stability are distinct properties. These results establish variational Transformers as a practical form of uncertainty-aware language modeling. They show that Transformers can predict with an explicit internal structure of uncertainty, which supports stronger probabilistic evaluation and a more informative analysis of model behavior.
- Abstract(参考訳): 言語モデリングのトランスフォーマーは通常、決定論的内部計算に依存し、主に出力層で不確実性が表される。
変分ニューロンをトランスフォーマーフィードフォワード計算に導入し、不確実性が内部計算自体の一部となるようにする。
具体的には、決定論的フィードフォワード単位をEVEに基づく局所的変動単位に置き換え、トランスフォーマーのバックボーン全体を保存する。
我々は、この設計をコンパクトな次世代言語モデリング設定で評価する。
決定的変分と変分的変分を予測的および確率的基準の両方と比較する。
負の対数類似度、パープレキシティ、精度とともに、キャリブレーション、条件分散、相互情報、潜時利用統計を解析する。
得られた写真は明確です。
変分ニューロンは、安定してトランスフォーマーに統合され、強い予測性能を保持し、情報的不確実性信号を生成する。
実験はまた、タスク品質、有用な深さ、内部安定性が異なる性質であることを示している。
これらの結果から,不確実性を考慮した言語モデリングの実践形態として変分変換器が確立された。
彼らはトランスフォーマーが不確実性の明確な内部構造で予測できることを示し、より強い確率的評価とモデル行動のより情報的な分析を支援する。
関連論文リスト
- Diffusion-Inspired Reconfiguration of Transformers for Uncertainty Calibration [52.017716672255524]
プレトレーニングトランスにおける不確実性校正は、リスクに敏感なアプリケーションへの信頼性の高い展開において重要である。
本稿では,各特徴変換ブロックを確率的写像としてモデル化したトランスフォーマの拡散インスピレーションによる再構成を提案する。
本手法は既存の不確実性認識変換器と比較してキャリブレーションと予測精度が優れている。
論文 参考訳(メタデータ) (2026-02-09T17:24:47Z) - Nonlinear Dynamic Factor Analysis With a Transformer Network [0.0]
従来の因子モデルを事前情報として利用することにより、小さなデータセットのパフォーマンスを大幅に改善する。
モンテカルロの実験は、トランスフォーマーが線形因子モデルよりも精度が高いことを示唆している。
実証的な応用は、Transformerを使って米国の実経済活動の一致した指標を構築することである。
論文 参考訳(メタデータ) (2026-01-17T12:59:58Z) - Probability Distributions Computed by Hard-Attention Transformers [53.17368795629463]
変換言語認識器の自己回帰化は,時として表現性を高める可能性があることを示す。
私たちの全体的な貢献は、トランスフォーマーが表現できる関数を、言語モデルとして最も一般的なユースケースで分解することにあります。
論文 参考訳(メタデータ) (2025-10-31T02:41:05Z) - Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Entropy-Lens: The Information Signature of Transformer Computations [14.613982627206884]
語彙空間におけるトークンレベルの分布の進化を直接研究する。
我々は,各中間予測分布のシャノンエントロピーを計算し,各層に1つの解釈可能なスカラーを与える。
本稿では, 既成の冷凍変圧器からエントロピープロファイルを抽出するモデルに依存しないフレームワークであるEntropy-Lensを紹介する。
論文 参考訳(メタデータ) (2025-02-23T13:33:27Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Transformers can optimally learn regression mixture models [22.85684729248361]
変換器は回帰の混合に対して最適な予測器を学習できることを示す。
実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。
決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
論文 参考訳(メタデータ) (2023-11-14T18:09:15Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。