論文の概要: Evidence of Meaning in Language Models Trained on Programs
- arxiv url: http://arxiv.org/abs/2305.11169v1
- Date: Thu, 18 May 2023 17:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 13:28:18.436794
- Title: Evidence of Meaning in Language Models Trained on Programs
- Title(参考訳): プログラムで学習した言語モデルにおける意味のエビデンス
- Authors: Charles Jin, Martin Rinard
- Abstract要約: 我々は,テキスト上で次のトークン予測を行うためにのみ訓練された言語モデルが意味を学習できることを示す。
まず、プログラムのコーパス上でTransformerモデルをトレーニングし、指定したプログラムを完了すると、トレーニングされたモデルの隠れた状態を探索する。
プローブの精度と、仕様を実装するプログラムを生成するモデルの能力との間には、強く統計的に有意な相関関係がある。
- 参考スコア(独自算出の注目度): 5.892876463573452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present evidence that language models can learn meaning despite being
trained only to perform next token prediction on text, specifically a corpus of
programs. Each program is preceded by a specification in the form of (textual)
input-output examples. Working with programs enables us to precisely define
concepts relevant to meaning in language (e.g., correctness and semantics),
making program synthesis well-suited as an intermediate testbed for
characterizing the presence (or absence) of meaning in language models.
We first train a Transformer model on the corpus of programs, then probe the
trained model's hidden states as it completes a program given a specification.
Despite providing no inductive bias toward learning the semantics of the
language, we find that a linear probe is able to extract abstractions of both
current and future program states from the model states. Moreover, there is a
strong, statistically significant correlation between the accuracy of the probe
and the model's ability to generate a program that implements the
specification. To evaluate whether the semantics are represented in the model
states rather than learned by the probe, we design a novel experimental
procedure that intervenes on the semantics of the language while preserving the
lexicon and syntax. We also demonstrate that the model learns to generate
correct programs that are, on average, shorter than those in the training set,
which is evidence that language model outputs may differ from the training
distribution in semantically meaningful ways. In summary, this paper does not
propose any new techniques for training language models, but develops an
experimental framework for and provides insights into the acquisition and
representation of (formal) meaning in language models.
- Abstract(参考訳): 本稿では,テキスト上での次のトークン予測,特にプログラムのコーパスのみを訓練しながら,言語モデルが意味を学習できることを示す。
各プログラムは(テキスト的な)入出力例の形式で仕様によって先行される。
プログラムで作業することで、言語モデルにおける意味の存在(または欠如)を特徴づける中間的テストベッドとしてプログラム合成を適合させる、言語における意味(例えば、正確性や意味論)に関する概念を正確に定義することができる。
まず、プログラムのコーパス上でTransformerモデルをトレーニングし、指定したプログラムを完了すると、トレーニングされたモデルの隠れた状態を探索する。
言語のセマンティクスを学ぶための帰納的バイアスは与えられていないが、線形プローブはモデル状態から現在のプログラム状態と将来のプログラム状態の両方の抽象化を抽出することができる。
さらに、プローブの精度と仕様を実装するプログラムを生成するモデルの能力との間には、強く統計的に有意な相関関係がある。
探索者が学習するよりもモデル状態のセマンティクスが表現されるかどうかを評価するため,語彙と構文を保存しながら,言語のセマンティクスに介入する新たな実験手順を設計する。
また、モデルがトレーニングセットのプログラムよりも平均的に短いプログラムを生成することを学習し、言語モデルの出力が意味論的に意味のある方法でトレーニング分布と異なる可能性があることを示す。
まとめると,本稿では,言語モデルの学習のための新しい手法を提案せず,言語モデルにおける(形式的)意味の獲得と表現に関する実験的なフレームワークを開発し,その知見を提供する。
関連論文リスト
- Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Towards Understanding What Code Language Models Learned [10.989953856458996]
事前訓練された言語モデルは、様々な自然言語処理に有効である。
彼らの能力は、完全に学習する意味や言語を理解する能力に欠けている、と論じられている。
本研究は,表面周波数と共起を超越した,コードのセマンティクスをキャプチャする能力について考察する。
論文 参考訳(メタデータ) (2023-06-20T23:42:14Z) - LaMPP: Language Models as Probabilistic Priors for Perception and Action [38.07277869107474]
非言語的知覚と制御タスクに言語モデルを活用する方法を示す。
提案手法は,確率的グラフィカルモデルにおけるラベリングと意思決定を推論として用いている。
論文 参考訳(メタデータ) (2023-02-03T15:14:04Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - Toward Trustworthy Neural Program Synthesis [6.3557174349423455]
本研究では,大規模言語モデルからサンプルしたプログラムが正しい確率を推定する手法を開発する。
プログラミング問題の自然言語記述を前提として,本手法では,プログラムの振る舞いを規定する候補述語だけでなく,候補プログラムも抽出する。
論文 参考訳(メタデータ) (2022-09-29T20:32:07Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Probing Linguistic Information For Logical Inference In Pre-trained
Language Models [2.4366811507669124]
本稿では,事前学習した言語モデル表現における論理推論のための言語情報探索手法を提案する。
i)事前学習された言語モデルは、推論のためにいくつかの種類の言語情報を符号化するが、弱符号化された情報もいくつか存在する。
シンボリック推論支援のためのセマンティックおよび背景知識基盤としての言語モデルの可能性を実証した。
論文 参考訳(メタデータ) (2021-12-03T07:19:42Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。