論文の概要: Moving Beyond Next-Token Prediction: Transformers are Context-Sensitive Language Generators
- arxiv url: http://arxiv.org/abs/2504.10845v1
- Date: Tue, 15 Apr 2025 04:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:57.898497
- Title: Moving Beyond Next-Token Prediction: Transformers are Context-Sensitive Language Generators
- Title(参考訳): 次世代予測を超えて移行する: トランスフォーマーはコンテキストに敏感な言語ジェネレータである
- Authors: Phill Kyu Rhee,
- Abstract要約: トランスフォーマーを利用した大規模言語モデル(LLM)は、人間のような知能を実証している。
本稿では,LLMを確率的左文脈依存言語(CSL)ジェネレータとして解釈するための新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.40792653193642503
- License:
- Abstract: Large Language Models (LLMs), powered by Transformers, have demonstrated human-like intelligence capabilities, yet their underlying mechanisms remain poorly understood. This paper presents a novel framework for interpreting LLMs as probabilistic left context-sensitive languages (CSLs) generators. We hypothesize that Transformers can be effectively decomposed into three fundamental components: context windows, attention mechanisms, and autoregressive generation frameworks. This decomposition allows for the development of more flexible and interpretable computational models, moving beyond the traditional view of attention and autoregression as inseparable processes. We argue that next-token predictions can be understood as probabilistic, dynamic approximations of left CSL production rules, providing an intuitive explanation for how simple token predictions can yield human-like intelligence outputs. Given that all CSLs are left context-sensitive (Penttonen, 1974), we conclude that Transformers stochastically approximate CSLs, which are widely recognized as models of human-like intelligence. This interpretation bridges the gap between Formal Language Theory and the observed generative power of Transformers, laying a foundation for future advancements in generative AI theory and applications. Our novel perspective on Transformer architectures will foster a deeper understanding of LLMs and their future potentials.
- Abstract(参考訳): トランスフォーマーを動力とする大規模言語モデル(LLM)は、人間のような知能を実証しているが、その基盤となるメカニズムはよく分かっていない。
本稿では,LLMを確率的左文脈依存言語(CSL)ジェネレータとして解釈するための新しい枠組みを提案する。
コンテクストウィンドウ,アテンション機構,自動回帰生成フレームワークという,トランスフォーマーを効果的に3つの基本コンポーネントに分解できる,という仮説を立てる。
この分解により、よりフレキシブルで解釈可能な計算モデルの開発が可能となり、従来の注意と自己回帰を分離不能なプロセスと見なす視点を超えたものとなる。
我々は、次のトークン予測は、左CSL生成規則の確率的、動的近似として理解でき、単純なトークン予測が人間のような知能出力をいかに生み出すかの直感的な説明を提供する。
すべてのCSLが文脈に敏感であることを考えると(Penttonen, 1974)、トランスフォーマーは人間のような知能のモデルとして広く認識されているCSLを確率的に近似する。
この解釈は、形式言語理論とトランスフォーマーの観測された生成力のギャップを埋め、生成的AI理論と応用の将来の進歩の基礎を築いた。
トランスフォーマーアーキテクチャに関する我々の新しい見解は、LCMとその将来的な可能性のより深い理解を促進するだろう。
関連論文リスト
- Mechanisms of Symbol Processing for In-Context Learning in Transformer Networks [78.54913566111198]
大規模言語モデル(LLM)は、文脈内学習(ICL)によるシンボル処理における印象的な能力を示した。
トランスネットワークにおけるロバストなシンボル処理を実現するメカニズムの解明を目指す。
複雑で抽象的なシンボル処理を行うための記号プログラムを記述できる高レベル言語 PSL を開発した。
論文 参考訳(メタデータ) (2024-10-23T01:38:10Z) - Dynamic Universal Approximation Theory: The Basic Theory for Transformer-based Large Language Models [9.487731634351787]
大規模トランスフォーマーネットワークは、自然言語処理アルゴリズムの進歩において、急速に主要なアプローチとなっている。
本稿では,大規模言語モデル(LLM)の理論的基礎について考察する。
理論的な背景を提供し、これらの進歩を支えるメカニズムに光を当てている。
論文 参考訳(メタデータ) (2024-07-01T04:29:35Z) - On the Representational Capacity of Neural Language Models with Chain-of-Thought Reasoning [87.73401758641089]
CoT推論による現代言語モデル(LM)の性能向上
LMは弦上の分布の族を確率的チューリングマシンと同一に表現できることを示す。
論文 参考訳(メタデータ) (2024-06-20T10:59:02Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - On the Ability and Limitations of Transformers to Recognize Formal
Languages [9.12267978757844]
カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。
トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。
おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
論文 参考訳(メタデータ) (2020-09-23T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。