論文の概要: Physics of Language Models: Part 1, Context-Free Grammar
- arxiv url: http://arxiv.org/abs/2305.13673v1
- Date: Tue, 23 May 2023 04:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 19:03:32.898798
- Title: Physics of Language Models: Part 1, Context-Free Grammar
- Title(参考訳): 言語モデルの物理:その1 文脈自由文法
- Authors: Zeyuan Allen-Zhu, Yuanzhi Li
- Abstract要約: 我々は、GPTのような生成言語モデルを研究する実験を設計し、文脈自由文法(CFG)を学ぶ。
CFGはプッシュダウンオートマトンと同じくらい難しいため、文字列が規則を満たすかどうかを検証するためには、動的プログラミングが必要である。
非常に難しいCFGであっても、事前学習したトランスフォーマーは、ほぼ完璧な精度と驚くべき$textitdiversity$で文を生成することができる。
- 参考スコア(独自算出の注目度): 66.05472746340142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design experiments to study $\textit{how}$ generative language models,
like GPT, learn context-free grammars (CFGs) -- diverse language systems with a
tree-like structure capturing many aspects of natural languages, programs, and
human logics. CFGs are as hard as pushdown automata, and can be ambiguous so
that verifying if a string satisfies the rules requires dynamic programming. We
construct synthetic data and demonstrate that even for very challenging CFGs,
pre-trained transformers can learn to generate sentences with near-perfect
accuracy and remarkable $\textit{diversity}$.
More importantly, we delve into the $\textit{physical principles}$ behind how
transformers learns CFGs. We discover that the hidden states within the
transformer implicitly and $\textit{precisely}$ encode the CFG structure (such
as putting tree node information exactly on the subtree boundary), and learn to
form "boundary to boundary" attentions that resemble dynamic programming. We
also cover some extension of CFGs as well as the robustness aspect of
transformers against grammar mistakes. Overall, our research provides a
comprehensive and empirical understanding of how transformers learn CFGs, and
reveals the physical mechanisms utilized by transformers to capture the
structure and rules of languages.
- Abstract(参考訳): gptのような生成言語モデル、すなわち文脈自由文法(cfgs) -- 自然言語、プログラム、ヒューマンロジックの多くの側面を捉えた木のような構造を持つ多様な言語システムです。
CFGはプッシュダウンオートマトンと同じくらい難しいため、文字列が規則を満たすかどうかを検証するためには、動的プログラミングが必要である。
合成データを構築し、非常に困難なCFGであっても、事前学習した変換器は、ほぼ完璧な精度で文を生成することを学習できることを示す。
さらに重要なのは、変換器がCFGを学ぶ方法の背後にある$\textit{physical principles}$を掘り下げることです。
トランスフォーマー内の隠れた状態と$\textit{precisely}$がcfg構造(木ノードの情報を正確にサブツリー境界に配置するなど)をエンコードし、動的プログラミングに類似した"バウンダリからバウンダリへの注意"を形成することを学ぶ。
また、cfgsの拡張や文法ミスに対するトランスフォーマーの堅牢性についても取り上げます。
全体として、我々の研究はトランスフォーマーがCFGをどう学習するかを包括的で実証的な理解を提供し、トランスフォーマーが言語の構造と規則を捉えている物理的メカニズムを明らかにする。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Hidden Holes: topological aspects of language models [1.1172147007388977]
我々は,GPTに基づく大規模言語モデルにおけるトポロジ的構造の発達について,訓練中の深度と時間にわたって検討した。
後者は、すべての自然言語に共通する変化パターンを持つが、合成されたデータがない、よりトポロジ的な複雑さを示すことを示す。
論文 参考訳(メタデータ) (2024-06-09T14:25:09Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - OntoType: Ontology-Guided and Pre-Trained Language Model Assisted Fine-Grained Entity Typing [25.516304052884397]
きめ細かいエンティティタイピング(FET)は、コンテキストに敏感できめ細かいセマンティックタイプでエンティティをテキストに割り当てる。
OntoTypeは、粗いものから細いものまで、型オントロジ構造に従い、複数のPLMをアンサンブルすることで、型候補のセットを生成する。
Ontonotes、FIGER、NYTデータセットに関する我々の実験は、我々の手法が最先端のゼロショットの微細なエンティティタイピング方法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-05-21T00:32:37Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。