論文の概要: Transformers Simulate MLE for Sequence Generation in Bayesian Networks
- arxiv url: http://arxiv.org/abs/2501.02547v1
- Date: Sun, 05 Jan 2025 13:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:12.619735
- Title: Transformers Simulate MLE for Sequence Generation in Bayesian Networks
- Title(参考訳): 変圧器によるベイジアンネットワークにおけるMLEのシーケンス生成シミュレーション
- Authors: Yuan Cao, Yihan He, Dennis Wu, Hong-Yu Chen, Jianqing Fan, Han Liu,
- Abstract要約: In-context maximum max estimation (MLE) に基づくベイズネットワークにおける変圧器の自己回帰生成機能について検討する。
ベイジアンネットワークの条件確率を文脈に応じて推定できる単純な変圧器モデルが存在することを実証する。
さらに、このような変圧器が理論上存在するだけでなく、訓練を通じて効果的に得られることを、広範な実験で実証する。
- 参考スコア(独自算出の注目度): 18.869174453242383
- License:
- Abstract: Transformers have achieved significant success in various fields, notably excelling in tasks involving sequential data like natural language processing. Despite these achievements, the theoretical understanding of transformers' capabilities remains limited. In this paper, we investigate the theoretical capabilities of transformers to autoregressively generate sequences in Bayesian networks based on in-context maximum likelihood estimation (MLE). Specifically, we consider a setting where a context is formed by a set of independent sequences generated according to a Bayesian network. We demonstrate that there exists a simple transformer model that can (i) estimate the conditional probabilities of the Bayesian network according to the context, and (ii) autoregressively generate a new sample according to the Bayesian network with estimated conditional probabilities. We further demonstrate in extensive experiments that such a transformer does not only exist in theory, but can also be effectively obtained through training. Our analysis highlights the potential of transformers to learn complex probabilistic models and contributes to a better understanding of large language models as a powerful class of sequence generators.
- Abstract(参考訳): トランスフォーマーは様々な分野で大きな成功を収めており、特に自然言語処理のようなシーケンシャルなデータに関わるタスクに優れています。
これらの成果にもかかわらず、変圧器の能力に関する理論的理解は依然として限られている。
本稿では,インコンテキスト最大推定(MLE)に基づいて,ベイズネットワーク上で自動回帰的にシーケンスを生成するトランスフォーマーの理論的機能について検討する。
具体的には、ベイズネットワークに基づいて生成された独立したシーケンスの集合によってコンテキストが形成される環境を考える。
簡単なトランスモデルが存在することを実証する。
一 文脈に応じてベイズネットワークの条件確率を推定し、
(II) 条件確率を推定したベイズネットワークに基づいて, 自己回帰的に新しいサンプルを自動生成する。
さらに、このような変圧器が理論上存在するだけでなく、訓練を通じて効果的に得られることを、広範な実験で実証する。
我々の分析は、変換器が複雑な確率モデルを学ぶ可能性を強調し、列生成器の強力なクラスとしての大規模言語モデルをよりよく理解するために貢献する。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot [50.16171384920963]
トランスフォーマーアーキテクチャは 様々なディープラーニング環境で普及しています
勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
論文 参考訳(メタデータ) (2024-06-11T02:15:53Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。