Fugu-MT 論文翻訳(概要): From Self-Attention to Markov Models: Unveiling the Dynamics of Generative Transformers

論文の概要: From Self-Attention to Markov Models: Unveiling the Dynamics of Generative Transformers

arxiv url: http://arxiv.org/abs/2402.13512v1
Date: Wed, 21 Feb 2024 03:51:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 17:08:15.391476
Title: From Self-Attention to Markov Models: Unveiling the Dynamics of Generative Transformers
Title（参考訳）: 自己注意からマルコフモデルへ:生成型変圧器のダイナミクスを解き明かす
Authors: M. Emrullah Ildiz, Yixiao Huang, Yingcong Li, Ankit Singh Rawat and Samet Oymak
Abstract要約: 本研究では,一連のプロンプトと関連する出力データから1層自己注意モデルを学習する。まず、自己注意機構とマルコフモデルとの正確なマッピングを確立する。我々は,自己注意による生成過程が崩壊し,トークンの限られた部分集合をサンプリングする,興味深い勝者とあらゆる現象を特徴付ける。
参考スコア（独自算出の注目度）: 41.82477691012942
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern language models rely on the transformer architecture and attention mechanism to perform language understanding and text generation. In this work, we study learning a 1-layer self-attention model from a set of prompts and associated output data sampled from the model. We first establish a precise mapping between the self-attention mechanism and Markov models: Inputting a prompt to the model samples the output token according to a context-conditioned Markov chain (CCMC) which weights the transition matrix of a base Markov chain. Additionally, incorporating positional encoding results in position-dependent scaling of the transition probabilities. Building on this formalism, we develop identifiability/coverage conditions for the prompt distribution that guarantee consistent estimation and establish sample complexity guarantees under IID samples. Finally, we study the problem of learning from a single output trajectory generated from an initial prompt. We characterize an intriguing winner-takes-all phenomenon where the generative process implemented by self-attention collapses into sampling a limited subset of tokens due to its non-mixing nature. This provides a mathematical explanation to the tendency of modern LLMs to generate repetitive text. In summary, the equivalence to CCMC provides a simple but powerful framework to study self-attention and its properties.
Abstract（参考訳）: 現代の言語モデルは、言語理解とテキスト生成を行うためにトランスフォーマーアーキテクチャとアテンションメカニズムに依存している。本研究では,本モデルから抽出した一連のプロンプトと関連する出力データから1層自己注意モデルを学習する。モデルにプロンプトを入力すると、基本マルコフ鎖の遷移行列を重み付けする文脈条件付きマルコフ連鎖(CCMC)に従って出力トークンがサンプリングされる。さらに、位置エンコーディングを組み込むことで、遷移確率の位置依存スケーリングが可能になる。このフォーマリズムを基盤として、一貫した推定を保証し、IIDサンプルに基づいてサンプルの複雑性を保証する即時分布のための識別可能性/被覆条件を開発する。最後に,初期プロンプトから生成された1つの出力軌跡から学習する問題について検討する。我々は,自己注意による生成過程が崩壊して,その非混合性に起因するトークンの限られた部分集合をサンプリングする,興味深い勝者の獲得現象を特徴付ける。これは、反復テキストを生成する現代のLLMの傾向に関する数学的説明を提供する。まとめると、CCMCと等価性は自己注意とその性質を研究するための単純だが強力な枠組みを提供する。

関連論文リスト

Learning Extrapolative Sequence Transformations from Markov Chains [6.161395208969171]
本稿では, 自己回帰モデルを用いて, 興味の系列レベルの性質に沿って外挿する新規な配列を効率よく生成できることを示す。提案手法は, タンパク質配列設計, テキスト感情制御, テキスト匿名化の3つの問題に対して検証された。
論文参考訳（メタデータ） (2025-05-26T17:27:47Z)
Text Generation Beyond Discrete Token Sampling [75.96920867382859]
入力の混合(Mixture of Inputs, MoI)は、自動回帰生成のためのトレーニング不要な方法である。 MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルのパフォーマンスを継続的に改善している。
論文参考訳（メタデータ） (2025-05-20T18:41:46Z)
Enhancing LLMs for Time Series Forecasting via Structure-Guided Cross-Modal Alignment [12.319685395140862]
本稿では,時系列データと言語データで共有される状態遷移グラフ構造を逐次モーダルとして活用・整合するフレームワークを提案する。複数のベンチマークの実験は、SGCMAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-19T14:30:41Z)
A Unified Approach to Analysis and Design of Denoising Markov Models [11.975300242253496]
我々はマルコフモデルを決定するための厳密な数学的基盤を確立することを目指している。本稿では,後方ジェネレータの明示的な構築を確実にするための仮定の最小セットを提案する。我々のフレームワークは、連続および離散拡散モデルの既存の定式化を統一する。
論文参考訳（メタデータ） (2025-04-02T17:46:43Z)
FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching [51.32059240975148]
FELLEは、言語モデリングとトークンワイドフローマッチングを統合する自動回帰モデルである。各連続値トークンに対して、FELLEは、前ステップからの情報を組み込んで、フローマッチングにおける一般的な事前分布を変更する。 FELLEは、言語モデルの出力に基づいて階層的に連続値のトークンを生成する。
論文参考訳（メタデータ） (2025-02-16T13:54:32Z)
Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。 MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文参考訳（メタデータ） (2024-07-11T14:36:53Z)
Dynamical mixture modeling with fast, automatic determination of Markov chains [0.0]
変動EMは、高価なモデル比較や後続サンプリングなしに、各チェーンのマルコフ連鎖の数と力学を効率的に同定する。この手法は、$tt Last.fm$音楽聴取、ウルトラマラソン実行、遺伝子発現に基づくシミュレーションおよび観測データセットを含む理論的解析と数値実験によって支持されている。
論文参考訳（メタデータ） (2024-06-07T05:43:11Z)
σ-GPTs: A New Approach to Autoregressive Models [19.84252724050016]
出力に位置エンコーディングを追加するだけで、この順序をオンザフライ・イン・サンプルで変調できることを示す。我々は,言語モデリング,パス解決,航空機の垂直速度予測など,様々な領域にわたる手法の評価を行った。
論文参考訳（メタデータ） (2024-04-15T08:22:47Z)
A Fixed-Point Approach for Causal Generative Modeling [20.88890689294816]
本稿では,構造因果モデル(Structure Causal Models, SCM)を因果順序付き変数の固定点問題として記述する新しい形式論を提案する。トポロジカル順序付け(TO)を考えると,その特異な回復のために最も弱い既知の条件を確立する。
論文参考訳（メタデータ） (2024-04-10T12:29:05Z)
The Evolution of Statistical Induction Heads: In-Context Learning Markov Chains [28.41876902994335]
In-context Learning (ICL) 機能がどのように出現するかを研究するために,Markov Chain シーケンスモデリングタスクを導入する。このタスクで訓練されたトランスフォーマーは、正確な次の確率を計算するための統計的誘導ヘッドを形成する。本研究では, 変圧器層間の相互作用から学習結果が得られたことを示し, より単純なユニグラム解の存在が最終ビッグラム解の形成を遅らせる可能性があることを示す。
論文参考訳（メタデータ） (2024-02-16T18:28:36Z)
Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文参考訳（メタデータ） (2023-05-28T06:30:29Z)
Leveraging Instance Features for Label Aggregation in Programmatic Weak Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。 PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文参考訳（メタデータ） (2022-10-06T07:28:53Z)
Equivalence of Segmental and Neural Transducer Modeling: A Proof of Concept [56.46135010588918]
RNN-Transducerモデルとセグメントモデル(直接HMM)の広く使われているクラスが等価であることを証明する。空白確率はセグメント長確率に変換され,その逆も示された。
論文参考訳（メタデータ） (2021-04-13T11:20:48Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。