Fugu-MT 論文翻訳(概要): Mechanics of Next Token Prediction with Self-Attention

論文の概要: Mechanics of Next Token Prediction with Self-Attention

arxiv url: http://arxiv.org/abs/2403.08081v1
Date: Tue, 12 Mar 2024 21:15:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 16:22:34.107432
Title: Mechanics of Next Token Prediction with Self-Attention
Title（参考訳）: 自己注意による次のトークン予測の力学
Authors: Yingcong Li, Yixiao Huang, M. Emrullah Ildiz, Ankit Singh Rawat, Samet Oymak
Abstract要約: トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。勾配降下による自己注意の訓練は,次のトークンを2つの異なるステップで生成するオートマトンを学習することを示す。これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。
参考スコア（独自算出の注目度）: 41.82477691012942
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based language models are trained on large datasets to predict the next token given an input sequence. Despite this simple training objective, they have led to revolutionary advances in natural language processing. Underlying this success is the self-attention mechanism. In this work, we ask: $\textit{What}$ $\textit{does}$ $\textit{a}$ $\textit{single}$ $\textit{self-attention}$ $\textit{layer}$ $\textit{learn}$ $\textit{from}$ $\textit{next-token}$ $\textit{prediction?}$ We show that training self-attention with gradient descent learns an automaton which generates the next token in two distinct steps: $\textbf{(1)}$ $\textbf{Hard}$ $\textbf{retrieval:}$ Given input sequence, self-attention precisely selects the $\textit{high-priority}$ $\textit{input}$ $\textit{tokens}$ associated with the last input token. $\textbf{(2)}$ $\textbf{Soft}$ $\textbf{composition:}$ It then creates a convex combination of the high-priority tokens from which the next token can be sampled. Under suitable conditions, we rigorously characterize these mechanics through a directed graph over tokens extracted from the training data. We prove that gradient descent implicitly discovers the strongly-connected components (SCC) of this graph and self-attention learns to retrieve the tokens that belong to the highest-priority SCC available in the context window. Our theory relies on decomposing the model weights into a directional component and a finite component that correspond to hard retrieval and soft composition steps respectively. This also formalizes a related implicit bias formula conjectured in [Tarzanagh et al. 2023]. We hope that these findings shed light on how self-attention processes sequential data and pave the path toward demystifying more complex architectures.
Abstract（参考訳）: トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。この単純な訓練目標にもかかわらず、自然言語処理の革命的な進歩につながった。この成功の根底にあるのは、自己認識のメカニズムです。 $\textit{What}$ $\textit{does}$ $\textit{a}$ $\textit{single}$ $\textit{self-attention}$ $\textit{layer}$ $\textit{learn}$ $\textit{from}$ $\textit{next-token}$ $\textit{prediction? $\textbf{(1)}$ $\textbf{Hard}$ $\textbf{retrieval:}$ given input sequence, self-attention exactlys the $\textit{high-priority}$ $\textit{input}$ $\textit{tokens}$ associated with the last input token。 $\textbf{(2)}$ $\textbf{Soft}$ $\textbf{composition:}$ 次に、次のトークンをサンプリングできる高優先度トークンの凸結合を生成する。適切な条件下では、トレーニングデータから抽出したトークン上の有向グラフを通じて、これらの力学を厳格に特徴付ける。我々は,このグラフの強結合成分(SCC)を暗黙的に発見し,自己注意がコンテキストウィンドウで利用可能な最優先のSCCに属するトークンを取得することを証明した。我々の理論は、モデルの重みを、それぞれハード・検索とソフト・コンポジションのステップに対応する方向成分と有限成分に分解することに依存している。これはまた [Tarzanagh et al 2023] で予想される関連する暗黙バイアス公式を定式化する。これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。

関連論文リスト

Attention with Trained Embeddings Provably Selects Important Tokens [73.77633297039097]
トーケン埋め込みは言語モデリングにおいて重要な役割を担っているが、この実践的関連性にもかかわらず、理論的な理解は限られている。本論文は,勾配降下法により得られた埋め込み構造を特徴付けることにより,そのギャップを解消する。実世界のデータセット(IMDB、Yelp)の実験では、我々の理論が明らかにしたものに近い現象が示されている。
論文参考訳（メタデータ） (2025-05-22T21:00:09Z)
$\text{M}^{\text{3}}$: A Modular World Model over Streams of Tokens [51.65485693709418]
トークン化を個別に最適化しながら、トークンストリームを動的にモデリングする、有望なモジュラーフレームワークとして、トークンベースのワールドモデルが登場した。本稿では、このフレームワークを拡張した、$textbfm$odular $textbfw$orld $textbfm$odelを紹介します。 $textMtext3$は、エージェントのパフォーマンスを向上させるために、既存の文献からいくつかの改善を実現している。
論文参考訳（メタデータ） (2025-02-17T08:06:10Z)
ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。 ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文参考訳（メタデータ） (2025-01-24T15:33:05Z)
Reasoning to Attend: Try to Understand How <SEG> Token Works [44.33848900059659]
我々は、$texttSEG>$トークンが、画像とテキストのペア内のセマンティックな類似性に寄与していることを示す。本稿では,高活性点の誘導の下で,LMMの高強度な$textbfREA$soning機能を実現するREADを提案する。
論文参考訳（メタデータ） (2024-12-23T17:44:05Z)
Towards Understanding the Universality of Transformers for Next-Token Prediction [20.300660057193017]
因果変換器は、与えられたコンテキストに対して次のトークンを予測するように訓練される。我々は,この現象を次々に予測するトランスフォーマーの近似能力について研究することで理解する。
論文参考訳（メタデータ） (2024-10-03T21:42:21Z)
Inertial Confinement Fusion Forecasting via Large Language Models [48.76222320245404]
本研究では,従来の貯水池計算パラダイムとLarge Language Models(LLM)の新たな統合である$textbfLPI-LLM$を紹介する。我々は、$textitLLM-anchored Reservoir$, augmented with a $textitFusion-specific Prompt$を提案する。また、最初の$textttLPI$ベンチマークである$textbfLPI4AI$も提示します。
論文参考訳（メタデータ） (2024-07-15T05:46:44Z)
Creating an AI Observer: Generative Semantic Workspaces [4.031100721019478]
我々は、$textbf[G]$enerative $textbf[S]$emantic $textbf[W]$orkspace (GSW)を紹介します。 GSWは、伝統的に定義されたレキシコンラベルのセットとは対照的に、生成的なスタイルのセマンティックフレームワークを作成する。
論文参考訳（メタデータ） (2024-06-07T00:09:13Z)
Transformer In-Context Learning for Categorical Data [51.23121284812406]
我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
論文参考訳（メタデータ） (2024-05-27T15:03:21Z)
Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文参考訳（メタデータ） (2024-02-06T15:39:09Z)
Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文参考訳（メタデータ） (2023-12-04T18:58:40Z)
Think before you speak: Training Language Models With Pause Tokens [73.61375226378712]
言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう? 私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
論文参考訳（メタデータ） (2023-10-03T17:32:41Z)
Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文参考訳（メタデータ） (2022-09-07T20:10:12Z)
High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文参考訳（メタデータ） (2022-05-03T12:09:59Z)
Categorical Representation Learning: Morphism is All You Need [0.0]
分類表現学習のための構築と「$textitcategorifier$」の基礎について紹介する。データセット内のすべてのオブジェクト$mathcals$は$textitencoding map$ $e: mathcalobj(mathcals)tomathbbrn$によって$mathbbrn$のベクトルとして表現できる。概念実証として,我々の技術を搭載したテキスト翻訳者の例を示し,分類的学習モデルがそれを上回ることを示す。
論文参考訳（メタデータ） (2021-03-26T23:47:15Z)
Two-way kernel matrix puncturing: towards resource-efficient PCA and spectral clustering [43.50783459690612]
この方法は、データマトリックス$XinmathbbCptimes n$と対応するカーネル(Gram)マトリックス$K$の両方をBernoulliマスクを介してランダムに「切断」する。我々は、GAN生成した画像データベースを実証的に確認し、データを劇的にパンクし、巨大な計算とストレージのゲインを提供することができることを確認した。
論文参考訳（メタデータ） (2021-02-24T14:01:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。