Fugu-MT 論文翻訳(概要): Physics of Language Models: Part 1, Context-Free Grammar

論文の概要: Physics of Language Models: Part 1, Context-Free Grammar

arxiv url: http://arxiv.org/abs/2305.13673v2
Date: Thu, 5 Oct 2023 01:43:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 22:21:32.619371
Title: Physics of Language Models: Part 1, Context-Free Grammar
Title（参考訳）: 言語モデルの物理:その1 文脈自由文法
Authors: Zeyuan Allen-Zhu, Yuanzhi Li
Abstract要約: 我々は、GPTのようなHOW生成言語モデルを研究するための制御実験を設計し、文脈自由文法(CFG)を学ぶ。難しい(長くあいまいな)CFGであっても、事前学習したトランスフォーマーは、ほぼ完璧な精度と印象的な多様性で文を生成することができる。
参考スコア（独自算出の注目度）: 61.05762942335984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We design controlled experiments to study HOW generative language models, like GPT, learn context-free grammars (CFGs) -- diverse language systems with a tree-like structure capturing many aspects of natural languages, programs, and logics. CFGs are as hard as pushdown automata, and can be ambiguous so that verifying if a string satisfies the rules requires dynamic programming. We construct synthetic data and demonstrate that even for difficult (long and ambiguous) CFGs, pre-trained transformers can learn to generate sentences with near-perfect accuracy and impressive diversity. More importantly, we delve into the physical principles behind how transformers learns CFGs. We discover that the hidden states within the transformer implicitly and precisely encode the CFG structure (such as putting tree node information exactly on the subtree boundary), and learn to form "boundary to boundary" attentions resembling dynamic programming. We also cover some extension of CFGs as well as the robustness aspect of transformers against grammar mistakes. Overall, our research provides a comprehensive and empirical understanding of how transformers learn CFGs, and reveals the physical mechanisms utilized by transformers to capture the structure and rules of languages.
Abstract（参考訳）: 我々は、GPTのようなHOW生成言語モデルを研究するために制御された実験を設計し、自然言語、プログラム、論理の多くの側面を捉える木のような構造を持つ多様な言語システム(CFG)を学ぶ。 CFGはプッシュダウンオートマトンと同じくらい難しいため、文字列が規則を満たすかどうかを検証するためには、動的プログラミングが必要である。合成データを構築し、難しい(長く曖昧な)CFGであっても、事前学習したトランスフォーマーは、ほぼ完璧な精度と印象的な多様性で文を生成することができることを示す。さらに重要なのは、トランスフォーマーがCFGを学ぶ方法の背景にある物理的な原則を掘り下げることです。トランスフォーマー内の隠れた状態が(木ノードの情報を正確にサブツリー境界に配置するなど)cfg構造を暗黙的に正確にエンコードし、動的プログラミングに似た"バウンダリからバウンダリへの"注意"を形成することを学ぶ。また、cfgsの拡張や文法ミスに対するトランスフォーマーの堅牢性についても取り上げます。全体として、我々の研究はトランスフォーマーがCFGをどう学習するかを包括的で実証的な理解を提供し、トランスフォーマーが言語の構造と規則を捉えている物理的メカニズムを明らかにする。

関連論文リスト

Transformers Pretrained on Procedural Data Contain Modular Structures for Algorithmic Reasoning [40.84344912259233]
我々は,小型変圧器の改良にともなう,特定のアルゴリズム推論スキルとともに,手続きデータに有用ないくつかの形式を同定する。我々の中核となる発見は、異なる手続き規則がモデルにおいて異なるが相補的な帰納的構造を具現化することである。最も興味深いのは、複数の規則によって誘導される構造は、複数の能力を共同で付与するために構成することができることである。
論文参考訳（メタデータ） (2025-05-28T12:50:09Z)
From Text to Graph: Leveraging Graph Neural Networks for Enhanced Explainability in NLP [3.864700176441583]
本研究では,自然言語処理タスクにおける説明可能性を実現するための新しい手法を提案する。自動的に文をグラフに変換し、ノードや関係を通じて意味を維持する。実験は、与えられた分類のためのテキスト構造の中で最も重要なコンポーネントを決定するための有望な結果をもたらした。
論文参考訳（メタデータ） (2025-04-02T18:55:58Z)
Exploring the Role of Reasoning Structures for Constructing Proofs in Multi-Step Natural Language Reasoning with Large Language Models [30.09120709652445]
本稿では,現在最先端のジェネラリスト LLM がいくつかの例でこれらの構造を活用でき,テキスト・コンテクスト・ラーニングによる証明構造をより良く構築できるかどうかという,焦点を絞った研究に焦点をあてる。
論文参考訳（メタデータ） (2024-10-11T00:45:50Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Hidden Holes: topological aspects of language models [1.1172147007388977]
我々は,GPTに基づく大規模言語モデルにおけるトポロジ的構造の発達について,訓練中の深度と時間にわたって検討した。後者は、すべての自然言語に共通する変化パターンを持つが、合成されたデータがない、よりトポロジ的な複雑さを示すことを示す。
論文参考訳（メタデータ） (2024-06-09T14:25:09Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文参考訳（メタデータ） (2023-11-24T16:19:04Z)
"You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文参考訳（メタデータ） (2023-10-26T21:47:59Z)
Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文参考訳（メタデータ） (2023-10-09T06:57:45Z)
OntoType: Ontology-Guided and Pre-Trained Language Model Assisted Fine-Grained Entity Typing [25.516304052884397]
きめ細かいエンティティタイピング(FET)は、コンテキストに敏感できめ細かいセマンティックタイプでエンティティをテキストに割り当てる。 OntoTypeは、粗いものから細いものまで、型オントロジ構造に従い、複数のPLMをアンサンブルすることで、型候補のセットを生成する。 Ontonotes、FIGER、NYTデータセットに関する我々の実験は、我々の手法が最先端のゼロショットの微細なエンティティタイピング方法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-05-21T00:32:37Z)
Unifying Structure Reasoning and Language Model Pre-training for Complex Reasoning [26.811507121199323]
本稿では,明示的な構造推論と言語事前学習を組み合わせ,PLMと構造推論のスキルを融合した統合学習フレームワークを提案する。まず、コンテクスト内のいくつかの基本構造を識別し、構造化されたクエリを構築し、クエリに沿ってステップバイステップの推論を行い、回答エンティティを識別する。 4つのデータセットに対する実験結果から,提案モデルが多様構造を含む複雑な推論タスクにおいて,大幅な改善を達成できることが示されている。
論文参考訳（メタデータ） (2023-01-21T08:18:11Z)
Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。 PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文参考訳（メタデータ） (2022-11-15T01:13:39Z)
Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文参考訳（メタデータ） (2022-10-26T13:27:26Z)
Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文参考訳（メタデータ） (2022-10-26T04:47:18Z)
Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文参考訳（メタデータ） (2022-10-16T04:35:58Z)
Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文参考訳（メタデータ） (2022-07-21T07:35:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。