論文の概要: Constrained Decoding for Code Language Models via Efficient Left and
Right Quotienting of Context-Sensitive Grammars
- arxiv url: http://arxiv.org/abs/2402.17988v1
- Date: Wed, 28 Feb 2024 02:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:33:26.766999
- Title: Constrained Decoding for Code Language Models via Efficient Left and
Right Quotienting of Context-Sensitive Grammars
- Title(参考訳): 文脈感性文法の左・右クオリティ化による符号言語モデルの制約付き復号法
- Authors: Daniel Melcer, Nathan Fulton, Sanjay Krishna Gouda, Haifeng Qian
- Abstract要約: 任意の文脈自由文法の左と右の商に対して作用するアールレー型タスクを開発する。
我々は、多くの共通プログラミング言語の文法に現れるいくつかの文脈依存機能に、インクリメンタル解析と商演算を拡張した。
- 参考スコア(独自算出の注目度): 12.322052060502276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are powerful tools for program synthesis and advanced
auto-completion, but come with no guarantee that their output code is
syntactically correct. This paper contributes an incremental parser that allows
early rejection of syntactically incorrect code, as well as efficient detection
of complete programs for fill-in-the-middle (FItM) tasks. We develop
Earley-style parsers that operate over left and right quotients of arbitrary
context-free grammars, and we extend our incremental parsing and quotient
operations to several context-sensitive features present in the grammars of
many common programming languages. The result of these contributions is an
efficient, general, and well-grounded method for left and right quotient
parsing.
To validate our theoretical contributions -- and the practical effectiveness
of certain design decisions -- we evaluate our method on the particularly
difficult case of FItM completion for Python 3. Our results demonstrate that
constrained generation can significantly reduce the incidence of syntax errors
in recommended code.
- Abstract(参考訳): 大きな言語モデルはプログラム合成と高度なオートコンプリートのための強力なツールであるが、出力コードが構文的に正しいという保証はない。
本稿では,構文上の誤りを早期に否定できるインクリメンタル・パーサと,FItM(Fit-in-the-middle)タスクのための完全プログラムの効率的な検出に寄与する。
我々は任意の文脈自由文法の左および右クォージェントで作用するアールリー型構文解析器を開発し、そのインクリメンタル解析と商演算を、多くの共通プログラミング言語の文法に存在するいくつかの文脈依存的特徴に拡張する。
これらのコントリビューションの結果は、左と右の商解析の効率的で、一般的で、そしてしっかりとした方法である。
理論的なコントリビューション、そして特定の設計決定の実践的有効性を検証するため、我々はPython 3のFItM完了の特に難しいケースについて、我々の手法を評価します。
その結果,制約付き生成は推奨コードにおける構文エラーの発生率を大幅に削減できることがわかった。
関連論文リスト
- Enhancing Idiomatic Representation in Multiple Languages via an Adaptive Contrastive Triplet Loss [9.807885676930308]
本稿では, 単語の非対称的な寄与を取り入れた三重項損失を用いた慣用性モデルを提案する。
提案手法はSemEvalの課題に基づいて評価され,多くの指標において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T14:21:41Z) - Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models [0.0]
本稿では,大規模言語モデルにおける解釈可能な回路を発見するための,効率的かつ堅牢な手法を提案する。
本稿では, 慎重に設計した正負の例に対して, スパースオートエンコーダを訓練する。
本研究は,スケーラブルかつ効率的な機械的解釈性を実現するための離散スパースオートエンコーダの実現を示唆するものである。
論文 参考訳(メタデータ) (2024-05-21T06:26:10Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Code Representation Pre-training with Complements from Program
Executions [29.148208436656216]
テストケースで明らかになったプログラムの動的情報を調べ,それを補体としてコードの特徴表現に埋め込むために,FuzzPretrainを提案する。
FuzzyPretrainは、ソースコードやASTのみをトレーニングしたコード検索に対して、6%/9%のmAP改善を実現した。
論文 参考訳(メタデータ) (2023-09-04T01:57:22Z) - Tokenization with Factorized Subword Encoding [2.538209532048867]
本稿では,VQ-VAEモデルを用いて,サブワードを離散三重項に分解する新しいトークン化手法を提案する。
その結果, この手法は, 一般的に使用されるバイトペア符号化(BPE)トークン化アルゴリズムよりも, 形態的タスクに適しており, 頑健であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T13:27:34Z) - A Syntax-Guided Multi-Task Learning Approach for Turducken-Style Code
Generation [19.489202790935902]
本稿では,構文誘導型マルチタスク学習手法TurduckenGenを提案する。
具体的には、まず最初に型情報をコードトークンに明示的に付加し、構文制約の表現をキャプチャします。
次に,構文制約表現を用いたコード生成を補助タスクとして形式化し,モデルの構文制約学習を可能にする。
論文 参考訳(メタデータ) (2023-03-09T06:22:07Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。