論文の概要: Physics of Language Models: Part 1, Context-Free Grammar
- arxiv url: http://arxiv.org/abs/2305.13673v2
- Date: Thu, 5 Oct 2023 01:43:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 22:21:32.619371
- Title: Physics of Language Models: Part 1, Context-Free Grammar
- Title(参考訳): 言語モデルの物理:その1 文脈自由文法
- Authors: Zeyuan Allen-Zhu, Yuanzhi Li
- Abstract要約: 我々は、GPTのようなHOW生成言語モデルを研究するための制御実験を設計し、文脈自由文法(CFG)を学ぶ。
難しい(長くあいまいな)CFGであっても、事前学習したトランスフォーマーは、ほぼ完璧な精度と印象的な多様性で文を生成することができる。
- 参考スコア(独自算出の注目度): 61.05762942335984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design controlled experiments to study HOW generative language models,
like GPT, learn context-free grammars (CFGs) -- diverse language systems with a
tree-like structure capturing many aspects of natural languages, programs, and
logics. CFGs are as hard as pushdown automata, and can be ambiguous so that
verifying if a string satisfies the rules requires dynamic programming. We
construct synthetic data and demonstrate that even for difficult (long and
ambiguous) CFGs, pre-trained transformers can learn to generate sentences with
near-perfect accuracy and impressive diversity.
More importantly, we delve into the physical principles behind how
transformers learns CFGs. We discover that the hidden states within the
transformer implicitly and precisely encode the CFG structure (such as putting
tree node information exactly on the subtree boundary), and learn to form
"boundary to boundary" attentions resembling dynamic programming. We also cover
some extension of CFGs as well as the robustness aspect of transformers against
grammar mistakes. Overall, our research provides a comprehensive and empirical
understanding of how transformers learn CFGs, and reveals the physical
mechanisms utilized by transformers to capture the structure and rules of
languages.
- Abstract(参考訳): 我々は、GPTのようなHOW生成言語モデルを研究するために制御された実験を設計し、自然言語、プログラム、論理の多くの側面を捉える木のような構造を持つ多様な言語システム(CFG)を学ぶ。
CFGはプッシュダウンオートマトンと同じくらい難しいため、文字列が規則を満たすかどうかを検証するためには、動的プログラミングが必要である。
合成データを構築し、難しい(長く曖昧な)CFGであっても、事前学習したトランスフォーマーは、ほぼ完璧な精度と印象的な多様性で文を生成することができることを示す。
さらに重要なのは、トランスフォーマーがCFGを学ぶ方法の背景にある物理的な原則を掘り下げることです。
トランスフォーマー内の隠れた状態が(木ノードの情報を正確にサブツリー境界に配置するなど)cfg構造を暗黙的に正確にエンコードし、動的プログラミングに似た"バウンダリからバウンダリへの"注意"を形成することを学ぶ。
また、cfgsの拡張や文法ミスに対するトランスフォーマーの堅牢性についても取り上げます。
全体として、我々の研究はトランスフォーマーがCFGをどう学習するかを包括的で実証的な理解を提供し、トランスフォーマーが言語の構造と規則を捉えている物理的メカニズムを明らかにする。
関連論文リスト
- Stack Attention: Improving the Ability of Transformers to Model
Hierarchical Patterns [17.144569385099462]
スタックアテンションは標準的なアテンションと類似しているが,構文的な監督を必要としない構文の潜在モデルで示している。
本稿では,制約パラメータ予算の下での自然言語モデリングにおいてスタックアテンションがより効果的であることを示し,機械翻訳の結果を含む。
論文 参考訳(メタデータ) (2023-10-03T02:18:06Z) - Compositional Program Generation for Few-Shot Systematic Generalization [59.57656559816271]
コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャに関する研究
CPGには3つの重要な特徴がある: 文法規則の形で、テキストモジュラリティ、テキストコンポジション、テキストタストラクションである。
SCAN と COGS のベンチマークでは,SCAN の14例と COGS の22例を使用して,完全な一般化を実現している。
論文 参考訳(メタデータ) (2023-09-28T14:33:20Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - On the Ability and Limitations of Transformers to Recognize Formal
Languages [9.12267978757844]
カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。
トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。
おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
論文 参考訳(メタデータ) (2020-09-23T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。