論文の概要: From Self-Attention to Markov Models: Unveiling the Dynamics of
Generative Transformers
- arxiv url: http://arxiv.org/abs/2402.13512v1
- Date: Wed, 21 Feb 2024 03:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:08:15.391476
- Title: From Self-Attention to Markov Models: Unveiling the Dynamics of
Generative Transformers
- Title(参考訳): 自己注意からマルコフモデルへ:生成型変圧器のダイナミクスを解き明かす
- Authors: M. Emrullah Ildiz, Yixiao Huang, Yingcong Li, Ankit Singh Rawat and
Samet Oymak
- Abstract要約: 本研究では,一連のプロンプトと関連する出力データから1層自己注意モデルを学習する。
まず、自己注意機構とマルコフモデルとの正確なマッピングを確立する。
我々は,自己注意による生成過程が崩壊し,トークンの限られた部分集合をサンプリングする,興味深い勝者とあらゆる現象を特徴付ける。
- 参考スコア(独自算出の注目度): 41.82477691012942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models rely on the transformer architecture and attention
mechanism to perform language understanding and text generation. In this work,
we study learning a 1-layer self-attention model from a set of prompts and
associated output data sampled from the model. We first establish a precise
mapping between the self-attention mechanism and Markov models: Inputting a
prompt to the model samples the output token according to a context-conditioned
Markov chain (CCMC) which weights the transition matrix of a base Markov chain.
Additionally, incorporating positional encoding results in position-dependent
scaling of the transition probabilities. Building on this formalism, we develop
identifiability/coverage conditions for the prompt distribution that guarantee
consistent estimation and establish sample complexity guarantees under IID
samples. Finally, we study the problem of learning from a single output
trajectory generated from an initial prompt. We characterize an intriguing
winner-takes-all phenomenon where the generative process implemented by
self-attention collapses into sampling a limited subset of tokens due to its
non-mixing nature. This provides a mathematical explanation to the tendency of
modern LLMs to generate repetitive text. In summary, the equivalence to CCMC
provides a simple but powerful framework to study self-attention and its
properties.
- Abstract(参考訳): 現代の言語モデルは、言語理解とテキスト生成を行うためにトランスフォーマーアーキテクチャとアテンションメカニズムに依存している。
本研究では,本モデルから抽出した一連のプロンプトと関連する出力データから1層自己注意モデルを学習する。
モデルにプロンプトを入力すると、基本マルコフ鎖の遷移行列を重み付けする文脈条件付きマルコフ連鎖(CCMC)に従って出力トークンがサンプリングされる。
さらに、位置エンコーディングを組み込むことで、遷移確率の位置依存スケーリングが可能になる。
このフォーマリズムを基盤として、一貫した推定を保証し、IIDサンプルに基づいてサンプルの複雑性を保証する即時分布のための識別可能性/被覆条件を開発する。
最後に,初期プロンプトから生成された1つの出力軌跡から学習する問題について検討する。
我々は,自己注意による生成過程が崩壊して,その非混合性に起因するトークンの限られた部分集合をサンプリングする,興味深い勝者の獲得現象を特徴付ける。
これは、反復テキストを生成する現代のLLMの傾向に関する数学的説明を提供する。
まとめると、CCMCと等価性は自己注意とその性質を研究するための単純だが強力な枠組みを提供する。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Dynamical mixture modeling with fast, automatic determination of Markov chains [0.0]
変動EMは、高価なモデル比較や後続サンプリングなしに、各チェーンのマルコフ連鎖の数と力学を効率的に同定する。
この手法は、$tt Last.fm$音楽聴取、ウルトラマラソン実行、遺伝子発現に基づくシミュレーションおよび観測データセットを含む理論的解析と数値実験によって支持されている。
論文 参考訳(メタデータ) (2024-06-07T05:43:11Z) - σ-GPTs: A New Approach to Autoregressive Models [19.84252724050016]
出力に位置エンコーディングを追加するだけで、この順序をオンザフライ・イン・サンプルで変調できることを示す。
我々は,言語モデリング,パス解決,航空機の垂直速度予測など,様々な領域にわたる手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-15T08:22:47Z) - The Evolution of Statistical Induction Heads: In-Context Learning Markov
Chains [28.41876902994335]
In-context Learning (ICL) 機能がどのように出現するかを研究するために,Markov Chain シーケンスモデリングタスクを導入する。
このタスクで訓練されたトランスフォーマーは、正確な次の確率を計算するための統計的誘導ヘッドを形成する。
本研究では, 変圧器層間の相互作用から学習結果が得られたことを示し, より単純なユニグラム解の存在が最終ビッグラム解の形成を遅らせる可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:36Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Equivalence of Segmental and Neural Transducer Modeling: A Proof of
Concept [56.46135010588918]
RNN-Transducerモデルとセグメントモデル(直接HMM)の広く使われているクラスが等価であることを証明する。
空白確率はセグメント長確率に変換され,その逆も示された。
論文 参考訳(メタデータ) (2021-04-13T11:20:48Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。