論文の概要: Evidence of Meaning in Language Models Trained on Programs
- arxiv url: http://arxiv.org/abs/2305.11169v1
- Date: Thu, 18 May 2023 17:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 13:28:18.436794
- Title: Evidence of Meaning in Language Models Trained on Programs
- Title(参考訳): プログラムで学習した言語モデルにおける意味のエビデンス
- Authors: Charles Jin, Martin Rinard
- Abstract要約: 我々は,テキスト上で次のトークン予測を行うためにのみ訓練された言語モデルが意味を学習できることを示す。
まず、プログラムのコーパス上でTransformerモデルをトレーニングし、指定したプログラムを完了すると、トレーニングされたモデルの隠れた状態を探索する。
プローブの精度と、仕様を実装するプログラムを生成するモデルの能力との間には、強く統計的に有意な相関関係がある。
- 参考スコア(独自算出の注目度): 5.892876463573452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present evidence that language models can learn meaning despite being
trained only to perform next token prediction on text, specifically a corpus of
programs. Each program is preceded by a specification in the form of (textual)
input-output examples. Working with programs enables us to precisely define
concepts relevant to meaning in language (e.g., correctness and semantics),
making program synthesis well-suited as an intermediate testbed for
characterizing the presence (or absence) of meaning in language models.
We first train a Transformer model on the corpus of programs, then probe the
trained model's hidden states as it completes a program given a specification.
Despite providing no inductive bias toward learning the semantics of the
language, we find that a linear probe is able to extract abstractions of both
current and future program states from the model states. Moreover, there is a
strong, statistically significant correlation between the accuracy of the probe
and the model's ability to generate a program that implements the
specification. To evaluate whether the semantics are represented in the model
states rather than learned by the probe, we design a novel experimental
procedure that intervenes on the semantics of the language while preserving the
lexicon and syntax. We also demonstrate that the model learns to generate
correct programs that are, on average, shorter than those in the training set,
which is evidence that language model outputs may differ from the training
distribution in semantically meaningful ways. In summary, this paper does not
propose any new techniques for training language models, but develops an
experimental framework for and provides insights into the acquisition and
representation of (formal) meaning in language models.
- Abstract(参考訳): 本稿では,テキスト上での次のトークン予測,特にプログラムのコーパスのみを訓練しながら,言語モデルが意味を学習できることを示す。
各プログラムは(テキスト的な)入出力例の形式で仕様によって先行される。
プログラムで作業することで、言語モデルにおける意味の存在(または欠如)を特徴づける中間的テストベッドとしてプログラム合成を適合させる、言語における意味(例えば、正確性や意味論)に関する概念を正確に定義することができる。
まず、プログラムのコーパス上でTransformerモデルをトレーニングし、指定したプログラムを完了すると、トレーニングされたモデルの隠れた状態を探索する。
言語のセマンティクスを学ぶための帰納的バイアスは与えられていないが、線形プローブはモデル状態から現在のプログラム状態と将来のプログラム状態の両方の抽象化を抽出することができる。
さらに、プローブの精度と仕様を実装するプログラムを生成するモデルの能力との間には、強く統計的に有意な相関関係がある。
探索者が学習するよりもモデル状態のセマンティクスが表現されるかどうかを評価するため,語彙と構文を保存しながら,言語のセマンティクスに介入する新たな実験手順を設計する。
また、モデルがトレーニングセットのプログラムよりも平均的に短いプログラムを生成することを学習し、言語モデルの出力が意味論的に意味のある方法でトレーニング分布と異なる可能性があることを示す。
まとめると,本稿では,言語モデルの学習のための新しい手法を提案せず,言語モデルにおける(形式的)意味の獲得と表現に関する実験的なフレームワークを開発し,その知見を提供する。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Code Representation Pre-training with Complements from Program
Executions [29.148208436656216]
テストケースで明らかになったプログラムの動的情報を調べ,それを補体としてコードの特徴表現に埋め込むために,FuzzPretrainを提案する。
FuzzyPretrainは、ソースコードやASTのみをトレーニングしたコード検索に対して、6%/9%のmAP改善を実現した。
論文 参考訳(メタデータ) (2023-09-04T01:57:22Z) - An Overview on Language Models: Recent Developments and Outlook [32.528770408502396]
従来の言語モデル(CLM)は、因果的に言語シーケンスの確率を予測することを目的としている。
事前学習言語モデル(PLM)はより広範な概念をカバーし、因果逐次モデリングと下流アプリケーションのための微調整の両方に使用することができる。
論文 参考訳(メタデータ) (2023-03-10T07:55:00Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - How could Neural Networks understand Programs? [67.4217527949013]
ソースコードにnlpプリトレーニング技術を直接適用するか、あるいはtheshelfによってモデルに機能を追加するかで、プログラムをより理解するためのモデルを構築するのは難しい。
本研究では,(1)操作セマンティクスの基本操作とよく一致する表現と(2)環境遷移の情報からなる情報から,モデルが学ぶべき新しいプログラムセマンティクス学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-05-10T12:21:42Z) - Sequence Model Design for Code Completion in the Modern IDE [3.4824234779710452]
本稿では,すべての有効なキーワードとスコープ内識別子を列挙する静的解析能力と,それらの上に確率分布を配置する言語モデルの能力を組み合わせた,トップk次トークンの予測手法を提案する。
我々のモデルは,文字レベルの入力表現とトークン出力を混合し,語彙外トークン(OOV)を有意に表現し,予測遅延を最小化する。
論文 参考訳(メタデータ) (2020-04-10T22:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。