論文の概要、ライセンス

# (参考訳) コンパイル可能性制約下におけるコード生成のためのエネルギーモデル [全文訳有]

Energy-Based Models for Code Generation under Compilability Constraints ( http://arxiv.org/abs/2106.04985v1 )

ライセンス: CC BY 4.0
Tomasz Korbak and Hady Elsahar and Marc Dymetman and Germ\'an Kruszewski(参考訳) ニューラル言語モデルはソースコードでうまくトレーニングすることができ、コード補完のようなアプリケーションに繋がる。 しかし、その汎用的自己回帰的自己超越目的は、構文的正当性やコンパイル可能性などのデータに存在する重要なグローバルなシーケンスレベル特徴を見落としている。 本研究では,コンパイル可能なコードを制約満足度として生成する学習の課題を提起する。 本稿では,コンパイル可能なシーケンスのみを生成する制約を課した,事前学習された生成モデルを表すエネルギーベースモデル(EBM)を定義する。 次に,kl適応分布政策勾配アルゴリズム(khalifa et al., 2021)を用いて,ebmに近い生成モデルを学習する。 提案手法は, 生成したサンプルの多様性や複雑さを犠牲にすることなく, コンパイル可能性を向上させることができることを示す実験を行った。

Neural language models can be successfully trained on source code, leading to applications such as code completion. However, their versatile autoregressive self-supervision objective overlooks important global sequence-level features that are present in the data such as syntactic correctness or compilability. In this work, we pose the problem of learning to generate compilable code as constraint satisfaction. We define an Energy-Based Model (EBM) representing a pre-trained generative model with an imposed constraint of generating only compilable sequences. We then use the KL-Adaptive Distributional Policy Gradient algorithm (Khalifa et al., 2021) to train a generative model approximating the EBM. We conduct experiments showing that our proposed approach is able to improve compilability rates without sacrificing diversity and complexity of the generated samples.
公開日: Wed, 9 Jun 2021 11:06:32 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Energy-Based Models for Code Generation コード生成のためのエネルギーモデル 0.78
under Compilability Constraints コンパイル可能性制約の下で 0.41
Tomasz Korbak,1,∗ Hady Elsahar,2 Marc Dymetman,2 Germ´an Kruszewski2 Tomasz Korbak,1,∗ Hady Elsahar,2 Marc Dymetman,2 Germ ́an Kruszewski2 0.68
{hady.elsahar,marc.dy metman,german.krusze wski}@naverlabs.com hady.elsahar,marc.dy metman,german.krusze wski}@naverlabs.com 0.67
t.korbak@sussex.ac.u k t.korbak@sussex.ac.u k 0.47
1University of Sussex, United Kingdom 英国・サセックス大学1校 0.64
2Naver Labs Europe, France 2Naver Labs Europe, France 0.99
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] G L . 9 ] G L。 0.81
s c [ 1 v 5 8 9 4 0 sc [ 1 v 5 8 9 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Neural language models can be successfully trained on source code, leading to applications such as code completion. 概要 ニューラル言語モデルはソースコードでうまくトレーニングすることができ、コード補完のようなアプリケーションに繋がる。 0.60
However, their versatile autoregressive self-supervision objective overlooks important global sequence-level features that are present in the data such as syntactic correctness or compilability. しかし、その汎用的自己回帰的自己超越目的は、構文的正当性やコンパイル可能性などのデータに存在する重要なグローバルなシーケンスレベル特徴を見落としている。 0.49
In this work, we pose the problem of learning to generate compilable code as constraint satisfaction. 本研究では,コンパイル可能なコードを制約満足度として生成する学習の課題を提起する。 0.64
We define an Energy-Based Model (EBM) representing a pre-trained generative model with an imposed constraint of generating only compilable sequences. 本稿では,コンパイル可能なシーケンスのみを生成する制約を課した,事前学習された生成モデルを表すエネルギーベースモデル(EBM)を定義する。 0.68
We then use the KL-Adaptive Distributional Policy Gradient algorithm (Khalifa et al , 2021) to train a generative model approximating the EBM. 次に,kl適応分布ポリシー勾配アルゴリズム(khalifa et al , 2021)を用いて,ebmに近い生成モデルを学習する。 0.79
We conduct experiments showing that our proposed approach is able to improve compilability rates without sacrificing diversity and complexity of the generated samples. 提案手法は, 生成したサンプルの多様性や複雑さを犠牲にすることなく, コンパイル可能性を向上させることができることを示す実験を行った。 0.64
Introduction 1 Code completion is an essential feature of any modern Integrated Development Environment (IDEs). はじめに 1. コード補完は、あらゆる現代的な統合開発環境(IDE)に不可欠な機能です。 0.65
It supports developers with recommendations about the next token to write given a context, speeding up software development and reducing the number of mistakes. 与えられたコンテキストを書き、ソフトウェア開発をスピードアップし、ミスの数を減らすための、次のトークンに関する推奨事項を開発者に提供する。 0.66
A large body of work has relied on statistical language modeling, treating programming languages as natural languages using probabilistic grammars (Raychev et al , 2014; Bielik et al , 2016), and more recently relying on neural language models (Liu et al , 2016a; Svyatkovskiy et al , 2020a,b; Arkesteijn et al , 2020; Ciniselli et al , 2021).1 In particular, neural autore∗ Work done during a research internship at Naver Labs 多くの研究は統計的言語モデルに依存しており、プログラミング言語を確率文法を用いて自然言語として扱う(raychev et al , 2014 , bielik et al , 2016)、最近ではニューラルネットワークモデルに依存する(liu et al , 2016a; svyatkovskiy et al , 2020a,b; arkesteijn et al , 2020; ciniselli et al , 2021).1)。
訳抜け防止モード: 多くの研究が統計言語モデリングに依存している。 確率文法を用いた自然言語としてプログラミング言語を扱う(Raychev et al, 2014; Bielik et al, 2016) さらに最近では、ニューラルネットワークモデル(Liu et al, 2016a ; Svyatkovskiy et al)に依存しています。 2020a, b; Arkesteijn et al, 2020; Ciniselli et al, 2021.1 Naver Labsにおける研究インターンシップにおける神経オートレックスの研究(2021)
0.88
Europe. 1See Allamanis et al (2018) for a survey. ヨーロッパ。 1 see allamanis et al (2018)を参照。 0.63
gressive language models have been favoured due to their scalability and generic training procedure that can exploit large codebases (e g open source code repositories available on GitHub) through selfsupervised training. gressive言語モデルは、自己教師付きトレーニングを通じて大規模なコードベース(githubで利用可能なオープンソースコードリポジトリなど)を活用可能な、スケーラビリティと汎用的なトレーニング手順によって好まれています。 0.64
Despite these desirable traits, neural language models, trained in the standard way, are known to suffer from myopia and to overlook global sequence-level features that are present in the data and which might be crucial for the quality of generated sequences (Parshakova et al , 2019b). このような望ましい特徴にもかかわらず、標準的な方法で訓練されたニューラルネットワークモデルは、ミオピアに苦しめられ、データに存在し、生成されたシーケンスの品質に不可欠なグローバルシーケンスレベルの特徴を見過ごすことが知られている(parshakova et al , 2019b)。 0.66
This leads to repetitions, hallucinations and failing to capture long-distance consistency requirements. これにより、反復、幻覚、長距離一貫性要求の達成に失敗する。 0.52
In a code generation context, this is demonstrated in compilation errors that are a common failure mode in such tasks as translation between programming languages (Roziere et al , 2020). コード生成のコンテキストでは、プログラミング言語間の翻訳などのタスクで一般的なエラーモードであるコンパイルエラー(roziere et al , 2020)でこれが実証される。 0.78
This problem has inspired a large body of work on different fronts on injecting sequence-level priors by either directly optimizing sequence-level features (Ranzato et al , 2016) or through fusion with grammars and automata (Xiao et al , 2016). この問題は、シーケンスレベルの特徴を直接最適化する(Ranzato et al , 2016)か、文法やオートマトンとの融合(Xiao et al , 2016)によって、シーケンスレベルの事前を注入するさまざまな面での多くの作業にインスピレーションを与えた。 0.69
These techniques aim to balance between the desirable traits and fast inference of neural autoregressive models trained in the standard way and the satisfaction of global sequence-level features. これらの手法は、標準的な方法で訓練された神経自己回帰モデルの望ましい特性と高速な推論と、グローバルシーケンスレベルの機能の満足度とのバランスをとることを目的としている。 0.61
In this work, we formulate compilable code generation as a constraint satisfaction problem. 本研究では,コンパイル可能なコード生成を制約満足度問題として定式化する。 0.61
We show that this formulation leads to a unique distribution represented by an Energy-Based Model (EBM). この定式化がエネルギーベースモデル(EBM)で表されるユニークな分布をもたらすことを示す。 0.85
This unique distribution by definition fully satisfies the compilability constraints while having a minimal KL divergence from the original autoregressive generative model trained through cross entropy. この定義による独特な分布は、クロスエントロピーによって訓練されたオリジナルの自己回帰生成モデルから最小のKL分岐を持つ一方で、コンパイル可能性の制約を完全に満たす。 0.60
We then train an auto-regressive generative model to approximate the underlying distribution of this EBM using the KL-Adaptive Distributional 次に、KL適応分布を用いた自己回帰生成モデルを用いて、このEMMの基底分布を近似する。 0.65
英語(論文から抽出)日本語訳スコア
Policy Gradient algorithm (Khalifa et al , 2021). ポリシーグラディエントアルゴリズム (Khalifa et al , 2021)。 0.71
In our experiments, we show that our approach significantly improves compilability rates without sacrificing diversity or complexity of the generated examples. 実験の結果,提案手法は,生成した例の多様性や複雑さを犠牲にすることなく,コンパイル可能性を大幅に向上することがわかった。 0.59
This alleviates the drawbacks of reinforcement learning fine-tuning techniques that maximize compilability but deviate significantly from the original generative model, which leads to severe loss in diversity and complexity of the generated samples. これは、コンパイル性を最大化するが元の生成モデルから著しく逸脱する強化学習の微調整技術の欠点を緩和し、生成したサンプルの多様性と複雑さを著しく損なう。 0.78
Finally, we complement our experiments with a qualitative analysis of the effect of several fine-tuning approaches on the distribution of compilation errors. 最後に,複数の微調整手法がコンパイルエラーの分布に与える影響を定性的に分析して実験を補完する。 0.80
2 Related Work Imposing compilability constraints on generative models There is a body of work focusing on unconditional code generation or code completion: generating a piece of source code given a preceding piece of source code (Nguyen et al , 2013; Raychev et al , 2014; Karpathy et al , 2015; Bielik et al , 2016). nguyen et al , 2013; raychev et al , 2014; karpathy et al , 2015; bielik et al , 2016)。 0.15
That work, however, focuses on perplexity and similarity with respect to ground truth completions (in terms of exact-match accuracy, Levensthein distance and ROUGE scores) (Svyatkovskiy et al , 2020a; Lu et al , 2021), usually failing to measure and control for compilability of generated sequences or semantic and syntactic constraints in general.2 On the other hand, semantic and syntactic constraints are frequently considered in languageto-code translation or program synthesis. しかしながら、この研究は、(正確なマッチング精度、レブンステイン距離、ROUGEスコア)基底真理の完全性(Svyatkovskiy et al , 2020a; Lu et al , 2021)に関するパープレキシティと類似性に焦点を当てており、通常、生成されたシーケンスのコンパイル可能性の測定や制御に失敗する。
訳抜け防止モード: しかし、その仕事は(正確には)真実の完備化に関して、難解さと類似性に焦点を当てている。 Levensthein distance and ROUGE scores ) (Svyatkovskiy et al, 2020a ; Lu et al, 2021 ) 通常、生成されたシーケンスやセマンティックな制約のコンパイル可能性の測定と制御に失敗する。 意味的制約と構文的制約は、しばしば言語(コード翻訳またはプログラム合成)で考慮される。
0.72
For instance, Zhong et al (2017), who used policy gradients to train a model for translating natural language questions to corresponding SQL queries and – in addition for rewarding for query execution results – added a penalty for syntactically invalid queries. 例えば、Zhong氏(2017)はポリシーグラデーションを使用して、自然言語質問を対応するSQLクエリに翻訳するモデルをトレーニングし、クエリ実行結果に対する報酬に加えて、構文的に無効なクエリに対するペナルティを追加した。 0.64
Taking that one step further, Kulal et al (2019) use compilation errors (with their precise location) to guide search over the space of possible programs. それをさらに一歩進めて、kulal et al (2019)はコンパイルエラー(正確な位置)を使用して、可能なプログラムの空間の探索をガイドしている。 0.72
Optimizing sequence-level rewards for text generation Most previous attempts at steering autoregressive model to conform to global constraints defined over entire sequence have employed reinforcement learning (RL). テキスト生成のためのシーケンスレベルの報酬の最適化 以前の試みでは、全シーケンスで定義されたグローバル制約に準拠するように自己回帰モデルを操ろうとしていた。 0.64
This includes using Reinforce (Williams, 1992a) for machine transla- これは機械トランスラにReinforce(Williams, 1992a)の使用を含む。 0.64
2One exception is the work of Maddison and Tarlow (2014), who augment neural probabilistic context free grammars with semantic constraints and use them for unconditional generation. 2つの例外は、神経確率的文脈自由文法を意味的制約付きで拡張し、それらを無条件生成に使用するmaddisonとtarlow(2014)の仕事である。
訳抜け防止モード: 2つの例外は、maddison と tarlow (2014) の仕事である。 神経確率的文脈自由文法を 意味的制約で拡張し 無条件生成に利用します
0.69
tion (Ranzato et al , 2016) or actor critic (Konda and Tsitsiklis, 2000) for abstractive summarization (Paulus et al , 2018), caption generation (Liu et al , 2016b), dialogue (Li et al , 2016b), and video captioning (Pasunuru and Bansal, 2017). tion (Ranzato et al , 2016), or actor critic (Konda and Tsitsiklis, 2000), for abstractive summarization (Paulus et al , 2018), Cast generation (Liu et al , 2016b), dialogue (Li et al , 2016b), and video casting (Pasunuru and Bansal, 2017). 0.78
Some approaches (for instance, in machine translation and summarization (Ranzato et al , 2016; Bahdanau et al , 2017)) directly optimize performance metrics such as BLEU and ROUGE at training time. いくつかのアプローチ(例えば、機械翻訳と要約(ranzato et al , 2016; bahdanau et al , 2017)は、トレーニング時にbleuやrougeなどのパフォーマンスメトリクスを直接最適化する。 0.70
Others use heuristic rewards (for instance Li et al (2016b) for dialogue generation and Tambwekar et al (2019) for story generation) in order to obtain certain a priori desirable features of generated sequences that then incentivize good performance on target metrics. その他には、対話生成にはヒューリスティック報酬(li et al (2016b))、ストーリー生成にはtambwekar et al (2019))を使用して、ターゲットメトリクスでの優れたパフォーマンスをインセンティブとする生成シーケンスの特定の優先的な特徴を得る。 0.74
A weakness of using RL in finetuning generative models is the problem of catastrophic forgetting: maximizing global, sequencelevel rewards leads to very large deviations from the original autoregressive model trained through cross-entropy. 大局的なシーケンスレベルの報酬を最大化することは、クロスエントロピーによって訓練された元の自己回帰モデルから非常に大きな逸脱をもたらす。
訳抜け防止モード: 微調整生成モデルにおけるRLの使用の弱点は破滅的忘れの問題である。 グローバル シークエンスレベルの報酬を最大化し クロス-エントロピーを通じてトレーニングされたオリジナルの自己回帰モデルから非常に大きな逸脱につながります。
0.62
This often results in significant reductions in fluency and diversity of generated samples. これはしばしば、生成したサンプルの流動性と多様性を著しく減少させる。 0.63
The catastrophic forgetting problem is sometimes addressed by imposing a penalty term to the rewards, such as the KL divergence between the trained policy and the auto-regressive model. 破滅的な忘れ問題は、訓練された政策と自己回帰モデルの間のKL分散のような報酬にペナルティ項を付与することで解決される。 0.61
This approach, termed “conservative fine-tuning”, was applied to generating melodies with music theory rewards and organic molecules with synthesizability rewards by Jaques et al (2017) as well finetuning language models for controllable language generation by Ziegler et al (2019). このアプローチは「保守的微調整」(conservative fine-tuning)と呼ばれ、jaques et al (2017) による音楽理論の報酬と有機分子による旋律の生成、ziegler et al (2019) による制御可能な言語生成のための言語モデルの微調整に応用された。 0.73
This solution doesn’t have an explicit notion of the optimal policy and often has hard time balancing between the reward term and the KL penalty term, leading to instability in training (Khalifa et al , 2021). このソリューションは、最適ポリシーの明確な概念を持っておらず、報酬項とKLのペナルティ項のバランスが難しいことが多いため、トレーニングの不安定性につながります(Khalifa et al , 2021)。 0.72
Unlike this approach, our formulation defines the optimal distribution that satisfies both requirements. このアプローチとは異なり、我々の定式化は両方の要求を満たす最適分布を定義する。 0.69
Energy-based models for text Energy-based models (EBMs) (Hinton, 2002; LeCun et al , 2006; Ranzato et al , 2007) are a family of probabilistic graphical models in which learning and inference are done by associating an unnormalized probability with each configuration of observed and latent variables. テキスト・エナジー・ベース・モデル (EBMs) (Hinton, 2002; LeCun et al , 2006; Ranzato et al , 2007) は、学習と推論を行う確率的グラフィカルモデルの一種で、観測変数と潜伏変数のそれぞれの構成に非正規化確率を関連付ける。 0.76
Early examples of EBMs applied to natural language processing include sequence labeling problems (e g tagging) exploiting global properties of a sequence (Andor et al , 2016; Belanger and McCallum, 2016). 自然言語処理に適用されたESMの初期の例は、シーケンスのグローバルな特性を利用するシーケンスラベリング問題(例えばタグ付け)である(Andor et al , 2016; Belanger and McCallum, 2016)。 0.76
A recent surge of interest in EBMs (Du and Mordatch, 2019) has not left text generation unaffected (see (Bakhtin et al , 2020) for a survey). EBM(Du and Mordatch, 2019)に対する最近の関心の高まりは、テキスト生成に影響を与えていない(Bakhtin et al , 2020)。 0.69
Tu et al (2020) proposed an energy- Tu et al (2020) のエネルギー提案- 0.90
英語(論文から抽出)日本語訳スコア
based inference networks for non-autoregressive machine translation. 非自己回帰機械翻訳のための推論ネットワーク 0.67
Parshakova et al (2019b) and Deng et al (2020) augment a autoregressive language models with an additional global factor to obtain a lower perplexity on the training data. parshakova et al (2019b) と deng et al (2020) は、学習データに対するより低いパープレキシティを得るために、追加のグローバルファクタを持つ自己回帰言語モデルを強化する。 0.77
Khalifa et al (2021) develop a novel approach to distributional controllable text generation by constructing an EBM satisfying desired statistical constraints imposed on the set of generated sequences (such as topic or gender statistics over the sequences) and then train an autoregressive policy to approximate it, which can be sampled from efficiently. Khalifa et al (2021) は、生成したシーケンスの集合(トピックや性別統計など)に課される所望の統計的制約を満たす EBM を構築し、それを効率的にサンプリングできる自己回帰ポリシーを訓練することで、分散制御可能なテキスト生成への新しいアプローチを開発する。 0.75
We build on Khalifa et al ’s approach by applying it to a novel domain outside natural language and defining a new kind of constraint: compilability. 私たちは、自然言語以外の新しいドメインに適用し、新しい種類の制約、コンパイル可能性を定義することで、Khalifa氏らのアプローチに基づいています。 0.58
3 Method Following Khalifa et al (2021), we formulate compilable code generation as a constraint satisfaction problem over a space of generative models. 3 khalifa et al (2021) に続いて, 生成モデルの空間上の制約満足度問題として, コンパイル可能なコード生成を定式化する。 0.77
There are two constraints that a target generative model p must satisfy. 対象生成モデル p が満たさなければならない2つの制約がある。 0.77
First, p must have minimal divergence -in the distribution space- from an original generative model a pre-trained using a standard autoregressive language modeling objective. 第一に、pは分布空間において、標準自己回帰言語モデリングの目的を用いて事前訓練された元の生成モデルから最小の発散を持つ必要がある。 0.62
Second, it must generate only sequences that satisfy a certain sequence level constraint b. 第二に、特定のシーケンスレベルの制約bを満たすシーケンスのみを生成しなければならない。 0.61
In our case, b(x) = 1 iff x is a syntactically correct Python program and b(x) = 0 otherwise. 私たちの場合、b(x) = 1 iff x は構文的に正しい Python プログラムであり、b(x) = 0 である。 0.90
There two constraints can be represented as a product-of-experts (Hinton, 2002) energy-based model ここでは2つの制約を(Hinton, 2002)エネルギーベースモデルとして表すことができる。 0.63
P (x) = a(x)b(x). p(x) = a(x)b(x) である。 0.90
(1) p(x) can be obtained from P (x) by dividing it by a normalization constant Z: (1) p(x) を正規化定数 z で割ることで p(x) から得ることができる。 0.82
where . = Z P (x). どこに . = Z P (x)。 0.81
p(x) = P (x), p(x) = P (x) である。 0.81
1 Z (cid:88) 1Z (cid:88) 0.76
(2) (3) x This EBM P is unique, it represents a distribution p that optimally reconciles the two constraints. (2) (3) x この EBM P は一意であり、2つの制約を最適に整合する分布 p を表す。 0.84
It is a special case of the generalized maximum entropy formulation presented in (Csisz´ar and Shields, 2004) for applying constraints over distributions. これは、分布上の制約を適用するための一般化された最大エントロピー公式(csisz ́ar and shields, 2004)の特別な場合である。 0.72
However, one problem still remains: it is not straightforward how to draw samples x ∼ p(x) or even evaluating probability p(x) from this optimal unique distribution. しかし、まだ一つの問題は残っており、サンプル x を p(x) に引く方法や、この最適一意分布から確率 p(x) を評価する方法が単純ではない。 0.80
A simple method for drawing samples from the p distribution could be p分布からサンプルを描く簡単な方法が考えられる 0.78
sampling sequences from a and filtering on b(x). a からのサンプリングシーケンスと b(x) 上のフィルタリング。 0.81
While this method sounds simple, there’s no direct way of using it for interactive code completion as sampling full sequences till the end is necessary to filter through the sequence-level filter b(x). このメソッドはシンプルに聞こえるが、シーケンスレベルのフィルタb(x)を通してフィルタする必要があるまで、完全なシーケンスのサンプリングとしてインタラクティブなコード補完に使用する直接の方法はない。 0.82
Therefore our objective here is to obtain another autoregressive policy πθ to directly approximate p. To attain this, Khalifa et al (2021) (following Parshakova et al (2019a)) developed a training procedure called KL-Adaptive Distributional Policy Gradients (KL-DPG) to train πθ to minimize the KL divergence between p and πθ. khalifa et al (2021) (parshakova et al (2019a)) は、kl-adaptive distributional policy gradients (kl-dpg) と呼ばれる訓練手順を開発し、πθ を訓練し、p と πθ の間の kl の発散を最小限に抑えるようにした。 0.67
The gradient of this KL turns out to be tractable: このklの勾配は 扱いやすいことが分かりました 0.55
∇θDKL(p, πθ) = ∇θEx∼p log θdkl(p, πθ) = である。 0.66
(4) p(x) πθ(x) = −∇θEx∼p log πθ(x) = −Ex∼p∇θ log πθ(x) = − 1 Z (4) p(x) πθ(x) = −*p log πθ(x) = −E(p)θ log πθ(x) = − 1 Z 0.86
(5) (6) P (x)∇θ log πθ(x) (7) (5) (6) P (x) =θ log πθ(x) (7) 0.87
(cid:88) x (cid:88) x 0.82
Let us now absorb the constant −1/Z into a learning rate α(θ) and estimate the expectation over p(x) using importance sampling (Owen, 2013) from yet another generative model q: さて、定数 −1/z を学習率 α(θ) に吸収し、別の生成モデル q から重要サンプリング (owen, 2013) を用いて p(x) 上の期待値を推定する。 0.89
∇θDKL(p, πθ) ∝ Ex∼q > πθDKL(p, πθ) > Ex q 0.65
P (x) q(x) P (x) q(x) 0.85
∇θ log πθ(x). θ log πθ(x) である。 0.85
(8) During training, both πθ and q are initialized as a. (8) 訓練中、πθ と q は a として初期化される。 0.76
Then, q is periodically updated to πθ if πθ surpasses q in being closer to p (in terms of KL). そして、πθ が p に近ければ q を πθ に周期的に更新する(KL に関して)。 0.76
For a pseudocode of the whole KL-DPG training procedure, see Algorithm 1. 全KL-DPGトレーニング手順の擬似コードについては、アルゴリズム1を参照。 0.75
The gradient in (8) is similar to an estimate obtained using policy gradients methods in standard reinforcement learning (Sutton et al , 1999) with P (x)/q(x) playing the role of a pseudoreward. 8)の勾配は、標準強化学習(Sutton et al , 1999)におけるポリシー勾配法を用いて得られた推定値と似ており、P(x)/q(x) は擬逆数の役割を担っている。 0.81
This similarity, however, is superficial. しかし、この類似性は表面的である。 0.72
Our objective is approximating a target generative model p by minimizing DKL(p, πθ) rather than maximizing expected reward b(x) or P (x) or P (x)/q(x). 我々の目標は、期待報酬b(x)またはp(x)またはp(x)/q(x)を最大化するのではなく、dkl(p, πθ)を最小化することで目標生成モデルpを近似することである。 0.71
As we show in Section 5, these objectives produce vastly different policies which diverge from p and catastrophically forget what the pretrained model a knew about its training domain. 第5節で示すように、これらの目的は、pから分岐し、そのトレーニング領域について事前訓練されたモデルが知っていることを破滅的に忘れる、非常に異なるポリシーを生み出します。 0.52
Furthermore, since q will always be close to πθ, our pseudoreward P (x)/q(x) effectively depends on policy parameters θ. さらに、q は常に πθ に近いため、擬逆 p(x)/q(x) はポリシーパラメータ θ に依存する。 0.77
英語(論文から抽出)日本語訳スコア
Algorithm 1 KL-DPG Require: EBM P , initial generative model a 1: πθ ← a 2: q ← a 3: for each iteration do 4: 5: 6: アルゴリズム 1 KL-DPG 要求: EBM P , initial generative model a 1: πθ > a 2: q > a 3: for each iteration do 4: 5: 6: 0.89
for each episode do sample x from q(x) θ ← θ + α(θ) P (x) 各エピソードについて、q(x) θ > θ + α(θ) P(x) からサンプル x を得る。 0.84
q(x) ∇θ log πθ(x) if DKL(p||πθ) < DKL(p||q) then もし DKL(p||πθ) < DKL(p||q) なら q(x) >θ log πθ(x) 0.82
7: 8: Ensure: πθ 7: 8: 確認: πθ 0.88
q ← πθ 4 Experiments 4.1 Setup Dataset: To prepare the training dataset, we started from the Python150 dataset, which consists of 150k Python source code files obtained from GitHub (Raychev et al , 2016). q = πθ 4 Experiments 4.1 Setup Dataset: トレーニングデータセットを作成するために、GitHub(Raychev et al , 2016)から取得した150kのPythonソースコードファイルからなるPython150データセットから開始しました。 0.77
Then, using the code from Roziere et al (2020), we extracted 713k Python functions (both methods and standalone functions) from it (250 MB of raw text data). そして、roziere et al (2020)のコードを用いて、713kのpython関数(メソッドとスタンドアロン関数の両方)を抽出した(250mbの生テキストデータ)。 0.79
The additional filtering criteria were compilability (according to b(x)) and being less than 128 BPE tokens long. 追加のフィルタリング基準は、コンパイル可能性(b(x))と128のBPEトークンであった。 0.64
The dataset was then split into a training subset Dtrain and test subset Dtest. データセットはトレーニングサブセットのDtrainとテストサブセットのDtestに分割される。 0.77
Initial generative model a: We implemented a using the GPT-2 (Radford et al , 2019) architecture with 117m parameters (gpt2-small) and kept all the original hyperparameters (see Table 1 in the Appendix). 最初の生成モデルa: GPT-2(Radford et al , 2019)アーキテクチャを117mパラメータ(gpt2-small)で実装し、元のハイパーパラメータをすべて保持しました(Appendixのテーブル1参照)。 0.78
We trained a byte-level BPE tokenizer (Sennrich et al , 2016) with special BOS and EOS tokens to obtain a vocabulary of 50k tokens. 我々は,50kトークンの語彙を得るために,特別なBOSトークンとEOSトークンを用いてバイトレベルのBPEトークンライザ(Sennrich et al , 2016)を訓練した。 0.62
The model was trained for one epoch. モデルは一時期訓練された。 0.75
Compilability Scorer b: To check for compilability, we call the compile command function from codeop module of Python Standard Library3 with a sequence x as argument and check if it returns a code object. Compilability Scorer b: コンパイル可能性をチェックするため、Python Standard Library3のcodeopモジュールからコンパイルコマンド関数を引数として呼び出し、それがコードオブジェクトを返すかどうかをチェックする。 0.85
We apply no postprocessing other than removing BOS and EOS tokens. BOSおよびEOSトークンを削除する以外、後処理は適用しない。 0.71
codeop.compile command is the implementation that Python interactive interpreters use in read-eval-print loop (REPL) to determine whether a string is a valid Python code. codeop.compileコマンドは、pythonインタラクティブインタプリタがread-eval-print loop(repl)で使用する実装で、文字列が有効なpythonコードかどうかを判断する。 0.66
The method tries to compile a string of Python code and raise and exception if there is a problem with the Python code, in particular a SyntaxError for invalid Python このメソッドは、Pythonコードの文字列をコンパイルし、Pythonコードの問題、特に無効なPythonのSyntaxErrorを発生させると、例外を発生させる。 0.84
3https://docs.python .org/3/library/ 3https://docs.python .org/3/library/ 0.29
codeop.html codeop.html 0.59
syntax and ValueError or OverflowError if there is an invalid literal. デフォルトリテラルがある場合、構文とValueErrorまたはOverflowError。 0.71
This notion of compilability is concerned only with syntactic correctness and does not execute the body of a function. このコンパイル可能性の概念は、構文的正しさのみに関係し、関数の本体を実行しない。 0.67
However, we found the initial compilability rate Ex∼ab(x) of functions x sampled from a(x) to be only 0.56, which leaves a large margin for improvement.4 KL-DPG training πθ and q share their architecture with a but have separate weights which are only initially identical to a’s. しかし、a(x) からサンプリングされた関数 x の初期コンパイル可能性率は 0.56 であり、改良の余地は大きい。4 KL-DPG トレーニング πθ と q はアーキテクチャを a と共有するが、これは最初は a と同一である。 0.65
Throughout the training, πθ will be updated to approximate p. See Table 2 in the Appendix for a complete list of hyperparameters used for training πθ and q using KL-DPG. トレーニングを通して πθ は近似 p に更新される。 KL-DPG を用いて πθ と q をトレーニングするのに使われる超パラメータの完全なリストは Appendix の Table 2 を参照。 0.70
4.2 Baselines We compare our method to a common approach of using standard reinforcement learning to fine-tune a generative model to conform to desired constraints. 4.2 ベースライン 標準強化学習を用いて生成モデルを微調整して所望の制約に適合させる一般的な手法と比較する。 0.83
We use the Reinforce algorithm (Williams, 1992b) which instead of minimizing divergence from the target distribution p tries to maximize expected reward Eπθ R(x). 目標分布 p からの発散を最小化する代わりに、期待報酬 eπθ r(x) を最大化しようとする強化アルゴリズム (williams, 1992b) を用いる。 0.81
We consider two kinds of reward R(x): 2種類の報酬 R(x) を考える。 0.64
• R(x) = b(x), where the generative model is simply rewarded for generating sequences that compile; • R(x) = b(x) ここで生成モデルは単にコンパイルするシーケンスを生成することに報酬を与える。 0.85
• R(x) = P (x), where the generative model is simply rewarded proportionally to the score our EBM assigns to x. • R(x) = P(x) では、生成モデルは単に x に EBM が割り当てるスコアに比例して与えられる。 0.76
Intuitively, this objective gives reward for both compilability and respecting the original generative model a. 直感的には、この目的はコンパイル可能性とオリジナルの生成モデルaを尊重することの両方に報酬を与える。 0.52
4.3 Evaluation Metrics We evaluate KL-DPG and two baselines in terms of the following metrics: 1. 4.3 評価基準 KL-DPG と2つの基準線を以下の指標で評価する。 0.79
Ex∼πθ b(x), compilability rate of sequences 指数πθ b(x) 配列のコンパイル可能性率 0.74
sampled from πθ(x), πθ(x) からサンプリングする 0.75
2. DKL(p, πθ), the forward KL divergence from 2. DKL(p, πθ) 前方 KL の発散 0.75
the optimal distribution p, 3. DKL(πθ, a), the reverse KL divergence from 最適分布p, 3. DKL(πθ, a) 逆 KL の発散 0.71
the original pretrained generative model, 元々 訓練済みの 生成モデルです 0.68
4. Distinct-1 score, a measure of text diversity in terms of the frequency of token repetitions in a sample x, proposed in the context of NLP by (Li et al , 2016a), 4. サンプルxにおけるトークン繰り返しの頻度の観点からのテキストの多様性の尺度である Distinct-1 score は NLP の文脈で (Li et al , 2016a) 提案されている。 0.84
because Ex∼ab(x) =(cid:80) exsab(x) =(cid:80) なので 0.59
x a(x)b(x) =(cid:80) x a(x)b(x) =(cid:80) 0.97
4Note that initial compilability rate will be equal to our Z 4 初期コンパイル可能性率がZと等しいことに注意。 0.61
x P (x) = Z. x p (x) = z である。 0.88
英語(論文から抽出)日本語訳スコア
5. Self-BLEU-5, a measure of text diversity across samples, proposed in the context of NLP by (Zhu et al , 2018), 5. サンプル間のテキスト多様性の尺度であるSelf-BLEU-5がNLPの文脈で提案されている(Zhu et al , 2018)。 0.80
6. Perplexity measured on Dtest, a held-out subset of the data used for training a, calculated as 6. aのトレーニングに使用されるデータのホールドアウトサブセットであるdtestで測定されたパープレキシティ 0.80
(cid:105) (cid:104) − 1 (cid:105) (cid:104)-1 0.78
N (cid:88) N (cid:88) 0.82
x∈Dtest exp xftpdtest exp 0.69
log πθ(x) , log πθ(x) , 0.85
where N is the overall number of tokens in Dtest. ここで N は Dtest のトークンの総数です。 0.63
7. Sequence length, the average number of characters in generated sequence x after detokenization, 7. シーケンス長、デトケン化後の生成シーケンスxの平均文字数。 0.76
8. AST node count, the average number of nodes in an abstract syntax tree (AST) of sequences that compile. 8. ASTノードカウント(AST node count)は、コンパイルされるシーケンスの抽象構文木(AST)の平均ノード数である。 0.82
Samples are parsed to their corresponding ASTs using the ast module from Python Standard Library.5 Intuitively, this metric should indicate the logical (as opposed to surface) complexity of generated programs, 9. サンプルはpython標準ライブラリのastモジュールを使用して対応するastに解析される。5 直感的に、このメトリクスは生成されたプログラムの論理的(表面的な)複雑さを示すものでなければならない。
訳抜け防止モード: サンプルはPython Standard Library.5のastモジュールを使って対応するASTに解析される。 この計量は論理的に (表面とは対照的に) 生成プログラムの複雑さ 9。
0.79
PEP8 error frequency, the average number of violations of PEP8, the style guide for Python,6 measured using pycodestyle,7 an offthe-shelf linter (static code analysis tool). PEP8エラー頻度、PEP8の平均違反数、Python,6のスタイルガイドは、pycodestyle,7を使って測定されている。
訳抜け防止モード: PEP8エラー周波数, PEP8の平均違反数 Python,6の測定したスタイルガイド pycodestyle,7 a offthe -shelf linter(静的コード解析ツール)を使用する。
0.81
We report the average number of errors per character to avoid confounding by sequence length. 1文字あたりの平均エラー数を報告し,シーケンス長による一致を回避した。 0.56
While high compilability rate is the target, the remaining metrics control for various aspects of fluency, quality and diversity of generated samples. 高いコンパイル可能性率が目標である一方で、残りのメトリクスは、生成されたサンプルの品質、多様性の様々な側面を制御します。 0.56
Most but not all of these aspects reduce to the constraint of staying close to a; for instance, it is possible for πθ to actually outperform a in matching the statistics of a’s own training distribution p∗(x). 例えば、πθ は、a 自身のトレーニング分布 p∗(x) の統計値に一致して a を実際に上回ることができる。
訳抜け防止モード: ほとんどだが、これらすべての側面は、 A に近づき続けるという制約に還元されるわけではない。 ; 例えば、 πθ は、実際は の自身のトレーニング分布 p∗(x) の統計値に一致する a を上回る。
0.71
5 Results We present the evolution of nine evaluation metrics as a function of gradient updates on Figures 1 and 2. 5 結果 図1 と 2 の勾配更新の関数として,9 つの評価指標の進化を示す。 0.78
Reinforce with R(x) = b(x) quickly improves compilability by a large margin but this improvement is mirrored by an equally large divergence from p and a. R(x) = b(x) による強化はコンパイル可能性を大幅に改善するが、この改善は p と a との等しく大きなばらつきによって反映される。 0.81
This divergence translates into generating sequences much shorter (in terms of the number of characters) and logically simpler (in terms of the number of nodes in its AST) than an average この発散は、平均よりも(文字数の観点から)はるかに短く、論理的に(ASTにおけるノード数の観点から)より単純なシーケンスを生成する。 0.78
5https://docs.python .org/3/library/ast. 5https://docs.python .org/3/library/ast。 0.32
html 6https://www.python. org/dev/peps/ html 6https://www.python. org/dev/peps/ 0.57
pep-0008/ 7https://github.com/ PyCQA/pycodestyle pep-0008/ 7https://github.com/ PyCQA/pycodestyle 0.42
Figure 1: Compilability rate Ex∼πθ b(x) (↑ better) of samples from policies obtained from KL-DPG, and two baselines: Reinforce with reward R(x) = b(x) and with reward R(x) = P (x). 図1: KL-DPG から得られたポリシーから得られるサンプルのコンパイル率 Ex πθ b(x) と、報酬 R(x) = b(x) と報酬 R(x) = P(x) の2つの基底線。 0.79
sequence sampled from a. aからサンプルされた配列。 0.59
This heavily decreased sequence length (most of the generated functions are one-liners) seems to artificially increase diversity metrics (Self-BLEU-5 and Distinct-1). この高度に減少したシーケンス長(生成した関数のほとんどはワンライナー)は、多様性の指標(Self-BLEU-5 と Distinct-1)を人工的に増加させたようである。 0.58
Reinforce with R(x) = P (x) doesn’t improve compilability rate until an inflection point after which it quickly reaches perfect compilability at a price of heavily diverging from both a and (perhaps counterintuitively) p. The reason behind that, however, is that the policy heavily peaks around a single sequence that is compilable. R(x) = P(x) による強化は、a と (おそらくは逆向きに) p の両方から大きく分岐する価格で、すぐに完全なコンパイル可能性に達するまで、コンパイル率を向上しない。
訳抜け防止モード: r(x ) = p(x ) で補強すると、変形点に達するまでコンパイル性が向上しない。 a と (おそらく直観的な) p の両方である。 しかし それは このポリシーは、コンパイル可能な1つのシーケンスを非常にピークにします。
0.58
To understand what causes this behavior, first note that the objective for Reinforce with R(x) = P (x) is to maximize Ex∼πθ [a(x)b(x)]. この振る舞いの原因を理解するために、まず、R(x) = P(x) によるReinforce の目的は Ex πθ [a(x)b(x)] を最大化することである。 0.84
Because R(x) = 0 for uncompilable sequences, compilation rate will improve. コンパイル不能なシーケンスに対して R(x) = 0 となるため、コンパイル率は向上する。 0.60
But for compilable sequences, the effective reward is R(x) = a(x) meaning that πθ is rewarded most for generating the most probable sequences (according to a(x)), making them even more probable. しかし、コンパイル可能な列に対して、有効な報酬は R(x) = a(x) であり、つまり πθ は(a(x) による)最も確率の高い列を生成するために最も報酬を受ける。 0.78
Eventually, Ex∼πθ a(x) is maximized by a policy peaking on a single sample x that was the most probable one according to a(x). 最終的に、 Ex πθ a(x) は a(x) により最も確率の高い 1 つの標本 x 上でピークとなるポリシーによって最大化される。 0.75
This failure mode is reflected in diversity metrics and perplexity. この障害モードは、多様性のメトリクスとパープレキシティに反映される。 0.60
The sequence the policy peaks on is also shorter and less complex than an average sequence sampled from a. ポリシーのピークとなるシーケンスも、aからサンプリングされた平均シーケンスよりも短く、複雑ではない。 0.67
KL-DPG is the only method that consistently improves compilability rate while decreasing divergence from p, maintaining the diversity of a and only slightly decreasing sequence length and KL-DPGは、pから分岐し、aとわずかに減少する配列長の多様性を維持しながら、コンパイル率を一貫して改善する唯一の方法である。 0.65
0100200gradient updates0.60.70.80.91 .0Eb(x)KL-DPGR(x)=b(x)R(x)=P(x) 0100200gradient update 0.60.70.80.91.0Eb(x) KL-DPGR(x)=b(x)R(x)=P(x) 0.65
英語(論文から抽出)日本語訳スコア
Figure 2: Evaluation metrics KL(p|πθ) (↓ better), KL(πθ|a) (↓ better), Self-BLEU-5 (↓ better), Distinct-1 (↑ better), AST node count (↑ better), PEP8 error count (↓ better), sequence length (↑ better), and perplexity (↓ better) for policies obtained from KL-DPG, and two baselines: Reinforce with reward R(x) = b(x) and with reward R(x) = P (x). 図2:評価指標kl(p|πθ) (> better), kl(πθ|a) (> better), self-bleu-5 (> better), distinct-1 (> better), astノード数(英語版), pep8エラーカウント(英語版), シーケンス長(英語版), パープレキシティ(英語版), kl-dpg(英語版)から得られるポリシーのパープレキシティ(英語版)(英語版) (> better) と、r(x) = b(x) と報酬 r(x) = p(x) の2つのベースライン。
訳抜け防止モード: 図2 : 評価指標KL(p|πθ )(より良い) KL(πθ|a ) ( s better ), Self - BLEU-5 ( s better ) Distinct-1 ( s better ), AST node count ( s better ) KL - DPG から得られるポリシーに対する PEP8 の誤差カウント(より良い)、シーケンス長(より良い)、パープレキシティ(より良い)、および2つのベースライン:報酬 R(x ) = b(x ) による強化。 そして、報酬 R(x ) = P ( x ) である。
0.84
the number of nodes in ASTs. AST のノード数。 0.52
Moreover, as a byproduct of improving compilability, KL-DPG is also able to slightly decrease the perplexity and the frequency of PEP8 violations per character. さらに、コンパイル性を向上させる副産物として、KL-DPGは文字ごとのPEP8違反の頻度をわずかに減少させることができる。 0.56
We conjecture the decrease in perplexity is because compilability provides a training signal enabling πθ to fit the a’s training distribution p∗(x) better than a was able to.8 The decrease in the frequency of PEP8 violations might be due to the fact that compilability is correlated with PEP8 compliance. 我々は、コンパイル可能性の低下は、πθ が a よりも a のトレーニング分布 p∗(x) に適合できる訓練信号を提供するためであると推測する。8 PEP8 の違反頻度の減少は、コンパイル可能性と PEP8 のコンプライアンスが相関しているという事実によるかもしれない。 0.71
5.1 Qualitative evaluation To further analyze effects of different fine-tuning approaches on sample diversity, we measured the frequency of BPE tokens in generated samples. 5.1 異なる微調整手法がサンプルの多様性に与える影響をさらに分析するために,生成試料中のbpeトークンの頻度を測定した。 0.74
For each of four analyzed generative models, we sampled 1000 sequences using pure ancestral sampling. 分析された4つの生成モデルそれぞれについて,純祖先サンプリングを用いて1000の配列をサンプリングした。 0.59
We then computed the frequency for each BPE token (the number of times it occurs) and its rank (its index in a sorted list of tokens). 次に各bpeトークン(発生回数)とそのランク(トークンのソートリスト内のインデックス)の頻度を計算した。 0.62
We plotted these re- 私たちはこれらをプロットした 0.44
8This mirrors the results obtained by Parshakova et al (2019b), who also defined an EBM augmenting an autoregressive model with prior knowledge about features of the training set and observed a decrease in perplexity compared to pure autoregressive training. 8)Parshakova et al (2019b)の結果を反映し,自己回帰モデルの拡張をトレーニングセットの特徴に関する事前知識で定義し,純粋な自己回帰トレーニングと比較してパープレキシティの低下を観察した。 0.75
sults on Figure 4. This qualitative evaluation paints a similar picture: fine-tuning using Reinforce incurs a large (with R(x) = b(x)) or extreme (with R(x) = P (x)) decrease in token diversity. 図4に示す。 Reinforce を用いた微調整は(R(x) = b(x)) あるいは(R(x) = P(x)) で)大きな(R(x) = b(x)) トークンの多様性を減少させる。 0.66
In contrast, KL-DPG is able to maintain a relatively long tail of token frequencies, not departing too far from a. 対照的に、KL-DPGはトークン周波数の比較的長い尾を維持でき、aからあまり離れない。 0.66
Moreover, in order to gain better understanding of how different fine-tuning methods affect generative models we measured the frequency of different categories of compilation errors for samples from a and from fine-tuned policies. さらに、異なる微調整手法が生成モデルにどのように影響するかをよりよく理解するために、細調整されたポリシーからサンプルに対する異なるカテゴリのコンパイルエラーの頻度を測定した。 0.76
This analysis is presented on Figure 3. この分析は図3に示します。 0.82
We categorized errors using error messages produced by Python interpreter trying to compile an uncompilable sequence. コンパイル不可能なシーケンスをコンパイルしようとするPythonインタプリタが生成したエラーメッセージを使ってエラーを分類した。 0.51
invalid syntax is the most common failure mode (30% of all sequences sampled from a), with a long tail of other error categories. 無効構文は最も一般的な障害モード(aからサンプリングされた全シーケンスの30%)であり、他のエラーカテゴリの長い尾を持つ。 0.71
We can see that both KL-DPG and Reinforce with R(x) = b(x) consistently decrease error frequency across almost all the categories. KL-DPG と R(x) = b(x) によるReinforce の両者は、ほぼすべてのカテゴリにおける誤差周波数を一貫して減少させる。 0.74
Finally, in the Appendix we present randomly generated samples from each discussed policy. 最後に、議論された各ポリシーからランダムに生成されたサンプルを示す。 0.64
Tables 3-6 contain samples obtained through unconditional generation. 表3-6は無条件生成によって得られたサンプルを含む。 0.54
In addition to that, to illustrate 0200gradient updates0.00.51.01.52 .0KL(p, )0200gradient updates0.00.51.01.52 .0KL(, a)0200gradient updates0.20.30.40.5D istinct-10200gradien t updates0.800.850.900 .951.00Self-BLEU-5KL -DPGR(x)=b(x)R(x)=P(x)0200gradient updates15202530AST node count0200gradient updates0.01250.01500 .01750.02000.02250.0 2500.0275PEP8 error frequency0200gradien t updates6080100120140 160Sequence length0200gradient updates1.01701.01711 .01721.01731.01741.0 175Perplexity それに加えて 0200gradient updates0.00.51.01.52 .0kl(p, )0200gradient updates0.00.51.01.52 .0kl(, a)0200gradient updates0.20.30.40.5d istinct-10200gradien t updates0.800.800.850 .900.951.00self-bleu -5kl-dpgr(x)=b(x)r(x)=p(x)0200gradient updates15202530ast node count0200gradient updates0.01250.005.0 1750.02000.0225.0275 pep8 error frequency0200gradien t updates6080801101401 40160sequence length0200gradient updates1.01701.01711 .01721731.01741.0175 75perplexity 0.33
英語(論文から抽出)日本語訳スコア
Figure 3: The frequency (measured as the percentage of samples from πθ(x) causing a given error) of each kind compilation error for the original generative model a and policies fine-tuned using KL-DPG and Reinforce with R(x) = b(x). 図3: 原生成モデル a に対する各種類のコンパイル誤差の周波数(πθ(x) からのサンプルの比率として測定される)と、KL-DPG および R(x) = b(x) によるReinforce を用いて微調整されたポリシー。 0.84
The policy fine-tuned using Reinforce with R(x) = P (x) was excluded because the single sequence it produces causes no compilation errors. R(x) = P(x) で Reinforce を微調整したポリシーは、単一のシーケンスがコンパイルエラーを発生させないため除外された。 0.71
Percentages were computed using 500 samples while confidence intervals were based on 3 repeats of the sampling procedure. 500試料を用いてパーセンテージを算出し, 信頼区間はサンプリング手順を3回繰り返して算出した。 0.68
complexity of generated samples. 生成したサンプルの複雑さ。 0.67
One obvious application of the presented approach is improving the accuracy of code completion, i.e. このアプローチの明らかな応用の1つは、コード補完の精度を向上させることである。
訳抜け防止モード: このアプローチの明らかな応用の1つは コード補完の精度を向上させること。
0.74
tools assisting in programming by predicting the next tokens based on context (Svyatkovskiy et al , 2020a). コンテキストに基づいて次のトークンを予測してプログラミングを支援するツール(svyatkovskiy et al , 2020a)。 0.74
The fact that fine-tuning using KL-DPG has a beneficial effect on perplexity and PEP8 error frequency suggests that it can provide a training signal complementary to that in a language modeling objective. KL-DPGを用いた微調整がパープレキシティやEPP8エラー周波数に有効であるという事実は、言語モデリングの目的に相補的なトレーニング信号を提供できることを示唆している。 0.72
The benefits of this auxilary training signal would arguably diminish with increased training time and datatset size, but that still leaves room for significant improvement in low-resource domains. この補助的訓練信号の利点は、トレーニング時間とデータセットサイズの増加によって間違いなく減少するが、それでも低リソースドメインの大幅な改善の余地は残されている。 0.65
A limitation of the current KL-DPG approach is that it is restricted to unconditional generation. 現在のKL-DPGアプローチの制限は、非条件生成に制限されていることである。 0.71
This is because for a conditional EBM P (x, c) the proportionality constant −1/Z from (4) would depend on a context c. Nevertheless, one can imagine using a policy πθ fine-tuned using KL-DPG as initialization of a decoder for conditional generation, e g transpilation (translation between programming languages) or program synthesis (translation from a natural language to a programming language). これは、条件付き EBM P (x, c) に対して (4) からの比例定数 −1/Z は文脈 c に依存するためである。しかし、KL-DPG を用いたポリシー πθ を条件付き生成、eg 変換(プログラミング言語間の変換)、プログラム合成(自然言語からプログラミング言語への変換)の初期化として用いると想像できる。 0.83
Figure 4: Token frequency against token rank computed for tokens found in samples from from KL-DPG, and two baselines. 図4:KL-DPGのサンプルから発見されたトークンのトークンランクに対するトークン頻度と2つのベースライン。 0.74
Longer tails imply more diverse samples. 長い尾はより多様なサンプルを意味する。 0.58
the applicability of obtained policies for code completion, in Tables 7-9 we present samples obtained through conditional generation, i.e. コード補完のための取得したポリシーの適用性について,表7~9において,条件生成によって得られたサンプル,すなわち,提示する。 0.56
x ∼ πθ(x|c), where the context c is a function name. ここで、文脈 c は関数名である。 0.35
In either case, samples were obtained using pure ancestral sampling. いずれの場合も、純粋な祖先サンプリングを用いてサンプルを得た。 0.65
6 Discussion References In the paper, we presented a new energy-based model formulation for the problem of imposing the constraint of compilability on an autoregressive generative model for source code. 6 討論 参考文献 本稿では,ソースコードの自己回帰生成モデルにコンパイル可能性の制約を課す問題に対するエネルギーモデルの新しい定式化について述べる。 0.71
In contrast with standard reinforcement learning approaches, the solution we propose – KL-DPG – is able to improve compilability rate without sacrificing diversity and 標準的な強化学習手法とは対照的に,提案するKL-DPGは,多様性を犠牲にすることなく,コンパイル率を向上させることができる。 0.66
Miltiadis Allamanis, Earl T. Barr, Premkumar T. Devanbu, and Charles Sutton. Miltiadis Allamanis、Earl T. Barr、Premkumar T. Devanbu、Charles Sutton。 0.79
2018. A survey of machine learning for big code and naturalness. 2018. ビッグコードと自然性のための機械学習に関する調査。 0.79
ACM Comput. Surv., 51(4):81:1–81:37. ACM計算。 51(4):81:1-81:37。 0.62
Daniel Andor, Chris Alberti, David Weiss, Aliaksei Severyn, Alessandro Presta, Kuzman Ganchev, Slav Petrov, and Michael Collins. Daniel Andor, Chris Alberti, David Weiss, Aliaksei Severyn, Alessandro Presta, Kuzman Ganchev, Slav Petrov, Michael Collins 0.77
2016. Globally Normalized Transition-Based Neural Networks. 2016. 世界正規化トランジションベースニューラルネットワーク 0.75
0.0%10%20%30%40%inva lid syntax0.0%2%4%6%8%EO L while scanningstring literal0.0%1.0%2%3%4 %unexpected EOF whileparsing0.0%0.5% 1.0%1.5%2%duplicate argument0.0%0.5%1.0% 1.5%2%unindent does notmatch any outer indentation level0.0%0.5%1.0%1.5 %2%unexpected indent0.0%0.2%0.5%0. 8%1.0%keyword argument repeated0.0%0.2%0.5% 0.8%1.0%unexpected character afterline continuation character0.0%0.2%0.4 %0.6%0.8%positional argument followskeyword argument0.0%0.2%0.4% 0.6%EOF while scanningtriple-quote d string literal0.0%0.1%0.2%0 .3%invalid character inidentifier0.0%0.1% 0.2%0.3%invalid token0.0%0.1%0.2%0.3 %positional argument followskeyword argument unpacking0.0%0.1%0.2 %0.3%non-default argument followsdefault argumentaKL-DPGR(x)=b(x)0200040006000tok en rank100101102103toke n frequencyaKL-DPGR(x) =b(x)R(x)=P(x) 0.0%10%20%30%40%inva lid syntax0.0%2%4%6%8%EO L while scanningstring literal0.0%1.0%2%3%4 %unexpected EOF whileparsing0.0%0.5% 1.0%1.5%2%duplicate argument0.0%0.5%1.0% 1.5%2%unindent does notmatch any outer indentation level0.0%0.5%1.0%1.5 %2%unexpected indent0.0%0.2%0.5%0. 8%1.0%keyword argument repeated0.0%0.2%0.5% 0.8%1.0%unexpected character afterline continuation character0.0%0.2%0.4 %0.6%0.8%positional argument followskeyword argument0.0%0.2%0.4% 0.6%EOF while scanningtriple-quote d string literal0.0%0.1%0.2%0 .3%invalid character inidentifier0.0%0.1% 0.2%0.3%invalid token0.0%0.1%0.2%0.3 %positional argument followskeyword argument unpacking0.0%0.1%0.2 %0.3%non-default argument followsdefault argumentaKL-DPGR(x)=b(x)0200040006000tok en rank100101102103toke n frequencyaKL-DPGR(x) =b(x)R(x)=P(x) 0.71
英語(論文から抽出)日本語訳スコア
Youri Arkesteijn, Nikhil Saldanha, Youri Arkesteijn, Nikhil Saldanha 0.71
Kostense. 2020. ral attention and byte pair encoding. Kostense 2020年 ラルアテンションとバイトペアエンコーディング 0.49
abs/2004.06343. abs/2004.06343。 0.45
and Bastijn Code completion using neuCoRR, neuCoRRを使ったBastijnのコード補完 0.68
Dzmitry Bahdanau, Philemon Brakel, Kelvin Xu, Anirudh Goyal, Ryan Lowe, Joelle Pineau, Aaron C. Courville, and Yoshua Bengio. Dzmitry Bahdanau, Philemon Brakel, Kelvin Xu, Anirudh Goyal, Ryan Lowe, Joelle Pineau, Aaron C. Courville, Yoshua Bengio 0.78
2017. An actor-critic In 5th Interalgorithm for sequence prediction. 2017. シーケンシャル予測のための第5次interalgorithmのアクター批判 0.79
national Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. 英語) National Conference on Learning Representations, ICLR 2017 Toulon, France, April 24-26, 2017 Conference Track Proceedings 0.84
OpenReview.net. OpenReview.net 0.83
A. Bakhtin, Y. Deng, S. Gross, Myle Ott, Marc’Aurelio Ranzato, and Arthur Szlam. A. Bakhtin, Y. Deng, S. Gross, Myle Ott, Marc’Aurelio Ranzato, Arthur Szlam 0.84
2020. Energy-based models for text. 2020. テキストのエネルギーモデル。 0.78
ArXiv, abs/2004.10188. ArXiv, abs/2004.10188。 0.59
David Belanger and Andrew McCallum. David BelangerとAndrew McCallum。 0.81
2016. StrucIn Proceedings tured prediction energy networks. 2016. strucin proceedings tured prediction energy network (英語) 0.75
of the 33rd International Conference on International Conference on Machine Learning - Volume 48, ICML’16, pages 983–992. 第33回International Conference on Machine Learning - Volume 48, ICML’16, page 983–992。
訳抜け防止モード: 第33回International Conference on Machine Learning - Volume 48, ICML'16に参加して 983-992頁。
0.78
JMLR.org. Pavol Bielik, Veselin Raychev, and Martin Vechev. JMLR.org Pavol Bielik、Veslin Raychev、Martin Vechev。 0.74
2016. Phog: Probabilistic model for code. 2016. Phog: コードの確率モデル。 0.79
In Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48, ICML’16, page 2933–2942. 第33回International Conference on Machine Learning - Volume 48, ICML'16, page 2933–2942 に参加して 0.73
JMLR.org. Matteo Ciniselli, Nathan Cooper, Luca Pascarella, Denys Poshyvanyk, Massimiliano Di Penta, and Gabriele Bavota. JMLR.org Matteo Ciniselli, Nathan Cooper, Luca Pascarella, Denys Poshyvanyk, Massimiliano Di Penta, Gabriele Bavota 0.78
2021. An empirical study on the usage of BERT models for code completion. 2021. BERTモデルを用いたコード補完に関する実証的研究 0.74
CoRR, abs/2103.07115. CoRR, abs/2103.07115。 0.60
Imre Csisz´ar and Paul C. Shields. Imre Csisz ́ar and Paul C. Shields 0.91
2004. Information theory and statistics: A tutorial. 2004. 情報理論と統計学:チュートリアル。 0.79
Commun. Inf. Commun Inf 0.48
Theory, 1(4):417–528. 理論1(4):417-528。 0.83
Yuntian Deng, Anton Bakhtin, Myle Ott, Arthur Szlam, and Marc’Aurelio Ranzato. Yuntian Deng、Anton Bakhtin、Myle Ott、Arthur Szlam、Marc’Aurelio Ranzato。 0.62
2020. Residual energyIn 8th Interbased models for text generation. 2020. 残留エネルギー第8世代テキスト生成のためのインターベースモデル。 0.76
national Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020 0.50
OpenReview.net. OpenReview.net 0.83
Yilun Du and Igor Mordatch. Yilun DuとIgor Mordatch。 0.69
2019. Implicit generation and modeling with energy based models. 2019. エネルギーベースモデルによる暗黙的生成とモデリング。 0.83
In Advances in Neural Information Processing Systems, volume 32. In Advances in Neural Information Processing Systems, Volume 32。 0.78
Curran Associates, Inc. Curran Associates, Inc. 0.85
Geoffrey E. Hinton. ジェフリー・e・ヒントン 0.50
2002. Training products of experts by minimizing contrastive divergence. 2002. コントラスト・ダイバージェンスを最小化する専門家の訓練製品。 0.67
Neural Comput., 14(8):1771–1800. 神経計算,14(8):1771-1800。 0.63
Natasha Jaques, Shixiang Gu, Dzmitry Bahdanau, Jose Miguel Hernandez Lobato, Richard E. Turner, and Doug Eck. Natasha Jaques、Shixiang Gu、Dzmitry Bahdanau、José Miguel Hernandez Lobato、Richard E. Turner、Doug Eck。 0.76
2017. Tuning recurrent neural networks with reinforcement learning. 2017. 強化学習を用いた繰り返しニューラルネットワークのチューニング 0.83
A. Karpathy, J. Johnson, and Li Fei-Fei. A. Karpathy、J. Johnson、Li Fei-Fei。 0.79
2015. Visualizing and understanding recurrent networks. 2015. リカレントネットワークの可視化と理解。 0.79
ArXiv, abs/1506.02078. ArXiv, abs/1506.02078。 0.59
Muhammad Khalifa, Hady Elsahar, and Marc Dymetman. Muhammad Khalifa、Hady Elsahar、Marc Dymetman。 0.68
2021. A distributional approach to controlled In International Conference on text generation. 2021. テキスト生成に関する国際会議における制御の分布的アプローチ 0.84
Learning Representations. Diederik P Kingma and Jimmy Ba. 表現の学習。 dieerik p kingmaとjimmy ba。 0.68
2014. Adam: A method for stochastic optimization. 2014. Adam: 確率最適化の方法です。 0.77
arXiv preprint arXiv:1412.6980. arXiv preprint arXiv:1412.6980 0.71
Vijay Konda and John Tsitsiklis. Vijay KondaとJohn Tsitsiklis。 0.81
2000. Actor-critic alIn Advances in Neural Information Pro- 2000. 神経情報プロにおけるアクタ-クリティック・アリンの進歩- 0.62
gorithms. cessing Systems, volume 12. ゴリスム システム停止、第12巻。 0.45
MIT Press. Sumith Kulal, Panupong Pasupat, Kartik Chandra, Mina Lee, Oded Padon, Alex Aiken, and Percy S Liang. MIT出版。 Sumith Kulal, Panupong Pasupat, Kartik Chandra, Mina Lee, Oded Padon, Alex Aiken, Percy S Liang 0.66
2019. Spoc: Search-based pseudocode to In Advances in Neural Information Processcode. 2019. Spoc: ニューラル情報処理の進歩に対する検索ベースの擬似コード。 0.81
ing Systems, volume 32. ingシステム、第32巻。 0.65
Curran Associates, Inc. Curran Associates, Inc. 0.85
Yann LeCun, Yann LeCun 0.57
Raia Hadsell, Marc’Aurelio Ranzato, and Fu Jie Huang. Raia Hadsell、Marc’Aurelio Ranzato、Fu Jie Huang。 0.70
2006. A In Predicting Tutorial on Energy-Based Learning. 2006. エネルギーベース学習における予測チュートリアル 0.76
Structured Data. MIT Press. 構造化データ。 MIT出版。 0.73
Sumit Chopra, Sumt Chopra 0.48
Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, and Bill Dolan. Jiwei Li、Michel Galley、Chris Brockett、Jianfeng Gao、Bill Dolan。 0.73
2016a. A diversity-promoting objective function for neural conversation models. 2016年。 ニューラル会話モデルのための多様性促進目的関数 0.79
In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 110–119, San Diego, California. 2016年、米国計算言語学会(association for computational linguistics: human language technologies)の北米支部の議事録110-119ページ、カリフォルニア州サンディエゴ。 0.73
Association for Computational Linguistics. Jiwei Li, Will Monroe, Alan Ritter, Dan Jurafsky, Michel Galley, and Jianfeng Gao. 計算言語学会会員。 Jiwei Li, Will Monroe, Alan Ritter, Dan Jurafsky, Michel Galley, Jianfeng Gao 0.62
2016b. Deep reinforcement learning for dialogue generation. 2016年。 対話生成のための深層強化学習 0.74
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, EMNLP 2016, Austin, Texas, USA, November 1-4, 2016, pages 1192–1202. 2016 Conference on Empirical Methods in Natural Language Processing, EMNLP 2016 Austin, Texas, USA, November 1-4, 2016”. 1192–1202. 2016年11月1日閲覧。 0.84
The Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)の略。 0.49
Chang Liu, Xin Wang, Richard Shin, Joseph E Gonzalez, and Dawn Song. Chang Liu、Xin Wang、Richard Shin、Joseph E Gonzalez、Dawn Song。 0.70
2016a. Neural code completion. 2016年。 ニューラルコード補完。 0.66
Siqi Liu, Zhenhai Zhu, Ning Ye, Sergio Guadarrama, and Kevin Murphy. Siqi Liu、Zhenhai Zhu、Ning Ye、Sergio Guadarrama、Kevin Murphy。 0.68
2016b. Optimization of image description metrics using policy gradient methods. 2016年。 ポリシー勾配法による画像記述指標の最適化 0.76
CoRR, abs/1612.00370. CoRR, abs/1612.00370。 0.58
Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin B. Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, and Shujie Liu. Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin B. Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu 0.82
2021. Codexglue: A machine learning benchmark dataset for code understanding and generation. 2021. Codexglue: コード理解と生成のための機械学習ベンチマークデータセット。 0.80
CoRR, abs/2102.04664. CoRR, abs/2102.04664。 0.59
Chris J. Maddison and Daniel Tarlow. クリス・j・マディソンとダニエル・ターロウ 0.59
2014. Structured In Progenerative models of natural source code. 2014. 自然ソースコードの生成モデルで構成される。 0.80
ceedings of the 31st International Conference on International Conference on Machine Learning - Volume 32, ICML’14, page II–649–II–657. 第31回International Conference on Machine Learning - Volume 32, ICML'14, page II–649–II–657 に参加。 0.87
JMLR.org. JMLR.org 0.83
英語(論文から抽出)日本語訳スコア
Tung Thanh Nguyen, Anh Tuan Nguyen, Hoan Anh Nguyen, and Tien N. Nguyen. Tung Thanh Nguyen, Anh Tuan Nguyen, Hoan Anh Nguyen, Tien N. Nguyen。 0.82
2013. A statistical In Prosemantic language model for source code. 2013. ソースコードのための統計的プロセマンティクス言語モデル。 0.82
ceedings of the 2013 9th Joint Meeting on Foundations of Software Engineering, ESEC/FSE 2013, page 532–542, New York, NY, USA. 2013年9th joint meeting on foundations of software engineering, esec/fse 2013 page 532–542, new york, ny, usa. (英語) 0.83
Association for Computing Machinery. Association for Computing Machinery の略。 0.72
Art B. Owen. アート・b・オーウェン 0.64
2013. Importance Sampling. 2013. 重要サンプリング。 0.70
In Monte Carlo theory, methods and examples, chapter 9. モンテでは カルロ理論、方法、例、第9章。 0.62
Tetiana Parshakova, Jean-Marc Andreoli, and Marc Dymetman. Tetiana Parshakova、Jean-Marc Andreoli、Marc Dymetman。 0.84
2019a. Distributional Reinforcement Learning For Energy-Based Sequential Models. 2019年。 エネルギーベースシーケンシャルモデルのための分布強化学習 0.78
CoRR. Tetiana Parshakova, Jean-Marc Andreoli, and Marc Dymetman. CoRR。 Tetiana Parshakova、Jean-Marc Andreoli、Marc Dymetman。 0.82
2019b. Global Autoregressive Models for Data-Efficient Sequence Learning. 2019年。 データ効率のよいシーケンス学習のためのグローバル自己回帰モデル 0.63
In Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL), pages 900–909, Hong Kong, China. 第23回計算自然言語学習会議(CoNLL)において,900-909頁,香港,中国 0.71
Association for Computational Linguistics. Ramakanth Pasunuru and Mohit Bansal. 計算言語学会会員。 Ramakanth PasunuruとMohit Bansal。 0.61
2017. Reinforced video captioning with entailment rewards. 2017. 追加報酬付き強化ビデオキャプション。 0.68
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, EMNLP 2017, Copenhagen, Denmark, September 911, 2017, pages 979–985. 2017 Conference on Empirical Methods in Natural Language Processing, EMNLP 2017, Copenhagen, Denmark, September 911, 2017”. 979–985. 2017年9月1日閲覧。 0.92
Association for Computational Linguistics. Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. 計算言語学会会員。 Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, Soumith Chintala 0.66
2019. Pytorch: An imperative style, high-performance deep learning library. 2019. Pytorch: 命令型で高性能なディープラーニングライブラリです。 0.81
In H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alch´e-Buc, E. Fox, and R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 8024–8035. H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alch ́e-Buc, E. Fox, R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 8024–8035。 0.85
Curran Associates, Inc. Curran Associates, Inc. 0.85
Romain Paulus, Caiming Xiong, and Richard Socher. Romain Paulus、Caiming Xiong、Richard Socher。 0.71
2018. A deep reinforced model for abstractive sumIn 6th International Conference on marization. 2018. 抽象的な要約のための深い強化モデル 第6回国際マリゼーション会議 0.82
Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, Conference Track Proceedings 0.70
OpenReview.net. OpenReview.net 0.83
Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever 0.73
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.72
OpenAI Blog, 1(8):9. OpenAI Blog, 1(8):9。 0.89
Marc’Aurelio Ranzato, Y-Lan Boureau, Sumit Chopra, and Yann LeCun. Marc’Aurelio Ranzato, Y-Lan Boureau, Sumit Chopra, Yann LeCun 0.76
2007. A unified energy-based In Proframework for unsupervised learning. 2007. 教師なし学習のためのプロフレームワークにおける統一エネルギーベース 0.67
ceedings of the Eleventh International Conference on Artificial Intelligence and Statistics, AISTATS 2007, San Juan, Puerto Rico, March 21-24, 2007, volume 2 of JMLR Proceedings, pages 371–379. 第11回人工知能と統計に関する国際会議、AISTATS 2007、サンフアン、プエルトリコ、2007年3月21-24日、JMLR Proceedings第2巻、ページ371-379。 0.63
JMLR.org. Marc’Aurelio Ranzato, Sumit Chopra, Michael Auli, and Wojciech Zaremba. JMLR.org Marc’Aurelio Ranzato, Sumit Chopra, Michael Auli, Wojciech Zaremba 0.75
2016. Sequence level trainIn 4th Intering with recurrent neural networks. 2016. シーケンスレベルトレーナー 第4回 リカレントニューラルネットワークとの相互作用 0.81
national Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings. national conference on learning representations, iclr 2016, san juan, puertorico, may 2-4, 2016 conference track proceedings (英語) 0.75
Veselin Raychev, Pavol Bielik, and Martin Vechev. Veselin Raychev、Pavol Bielik、Martin Vechev。 0.69
2016. Probabilistic model for code with decision trees. 2016. 決定木を持つコードの確率モデル。 0.80
SIGPLAN Not., 51(10):731–747. SIGPLAN Not., 51(10):731-747。 0.84
Veselin Raychev, Martin Vechev, and Eran Yahav. Veselin Raychev、Martin Vechev、Eran Yahav。 0.65
2014. Code completion with statistical language models. 2014. 統計言語モデルによるコード補完。 0.83
SIGPLAN Not., 49(6):419–428. SIGPLAN Not., 49(6):419–428。 0.84
Baptiste Roziere, Marie-Anne Lachaux, Lowik Chanussot, and Guillaume Lample. Baptiste Roziere, Marie-Anne Lachaux, Lowik Chanussot, Guillaume Lample 0.77
2020. Unsupervised translation of programming languages. 2020. プログラミング言語の教師なし翻訳。 0.79
Advances in Neural Information Processing Systems, 33. 神経情報処理システムの進歩33。 0.59
Rico Sennrich, Barry Haddow, and Alexandra Birch. Rico Sennrich、Barry Haddow、Alexandra Birch。 0.64
2016. Neural machine translation of rare words with subword units. 2016. サブワード単位を用いたレアワードのニューラルマシン翻訳 0.79
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715– 1725, Berlin, Germany. 第54回計算言語学会年次大会(Volume 1: Long Papers, page 1715–1725, Berlin, Germany)に参加して 0.69
Association for Computational Linguistics. Richard S. Sutton, David McAllester, Satinder Singh, and Yishay Mansour. 計算言語学会会員。 Richard S. Sutton, David McAllester, Satinder Singh, Yishay Mansour 0.63
1999. Policy gradient methods for reinforcement learning with function approximation. 1999. 関数近似を用いた強化学習のための政策勾配法 0.84
In Proceedings of the 12th International Conference on Neural Information Processing Systems, NIPS’99, page 1057–1063, Cambridge, MA, USA. The 12th International Conference on Neural Information Processing Systems, NIPS’99, page 1057–1063, Cambridge, MA, USA (英語) 0.83
MIT Press. Alexey Svyatkovskiy, Shao Kun Deng, Shengyu Fu, and Neel Sundaresan. MIT出版。 Alexey Svyatkovskiy、Shao Kun Deng、Shengyu Fu、Neel Sundaresan。 0.65
2020a. Intellicode compose: In ProceedCode generation using transformer. 2020a Intellicode compose: トランスフォーマーを使ったProceedCode生成。 0.78
ings of the 28th ACM Joint Meeting on European Software Engineering Conference and Symposium on the Foundations of Software Engineering, ESEC/FSE 2020, page 1433–1443, New York, NY, USA. The 28th ACM Joint Meeting on European Software Engineering Conference and Symposium on the Foundations of Software Engineering, ESEC/FSE 2020, page 1433–1443, New York, NY, USA. 0.92
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Alexey Svyatkovskiy, Sebastian Lee, Anna Hadjitofi, Maik Riechert, Juliana Franco, and Miltiadis Allamanis. Alexey Svyatkovskiy, Sebastian Lee, Anna Hadjitofi, Maik Riechert, Juliana Franco, Miltiadis Allamanis 0.71
2020b. Fast and memory-efficient neural code completion. 2020年。 高速でメモリ効率のよいニューラルコード補完。 0.69
CoRR, abs/2004.13651. CoRR, abs/2004.13651。 0.60
Pradyumna Tambwekar, Murtaza Dhuliawala, Lara J. Martin, Animesh Mehta, Brent Harrison, and Mark O. Riedl. Pradyumna Tambwekar, Murtaza Dhuliawala, Lara J. Martin, Animesh Mehta, Brent Harrison, Mark O. Riedl 0.81
2019. Controllable neural story plot In Proceedings of generation via reward shaping. 2019. 報酬シェーピングによる生成手続きにおける制御可能なニューラルストーリープロット 0.75
the Twenty-Eighth International Joint Conference on Artificial Intelligence, IJCAI 2019, Macao, China, August 10-16, 2019, pages 5982–5988. The Twenty-Eighth International Joint Conference on Artificial Intelligence, IJCAI 2019, Macao, China, August 10-16, 2019, page 5982–5988 0.97
ijcai.org. Lifu Tu, Richard Yuanzhe Pang, Sam Wiseman, and Kevin Gimpel. Ijcai.org Lifu Tu、Richard Yuanzhe Pang、Sam Wiseman、Kevin Gimpel。 0.75
2020. Engine: Energy-based inference networks for non-autoregressive machine translation. 2020. エンジン:非自己回帰機械翻訳のためのエネルギーベースの推論ネットワーク。 0.74
ArXiv, abs/2005.00850. ArXiv, abs/2005.00850。 0.61
Ronald J. Williams. ロナルド・J・ウィリアムズ 0.71
1992a. Simple statistical gradientfollowing algorithms for connectionist reinforcement learning. 1992年。 コネクショニスト強化学習のための簡易統計勾配追従アルゴリズム 0.78
Mach. Learn., 8:229–256. Mach 8:229–256。 0.54
英語(論文から抽出)日本語訳スコア
Ronald J. Williams. ロナルド・J・ウィリアムズ 0.71
1992b. Simple statistical gradientfollowing algorithms for connectionist reinforceIn Machine Learning, pages 229– ment learning. 1992年。 コネクショニスト強化のための単純な統計勾配追従アルゴリズム、機械学習, page 229–ment learning。 0.72
256. Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R´emi Louf, Morgan Funtowicz, and Jamie Brew. 256. Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R ́emi Louf, Morgan Funtowicz, Jamie Brew 0.84
2019. Huggingface’s transformers: State-of-the-art natural language processing. 2019. Huggingfaceのトランスフォーマー:最先端の自然言語処理。 0.80
CoRR, abs/1910.03771. CoRR, abs/1910.03771。 0.59
Chunyang Xiao, Marc Dymetman, and Claire Gardent. Chunyang Xiao, Marc Dymetman, Claire Gardent 0.61
2016. Sequence-based structured prediction for seIn Proceedings of the 54th Anmantic parsing. 2016. 第54代アンマン語構文解析におけるSeInの逐次的構造予測 0.75
nual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1341– 1350, Berlin, Germany. 計算言語学会のヌール会議(第1巻:長い論文) 1341-1350ページ、ベルリン、ドイツ。 0.63
Association for Computational Linguistics. Victor Zhong, Caiming Xiong, and Richard Socher. 計算言語学会会員。 ヴィクター・ソン、ケイミン・クオン、リチャード・ソッチャー。 0.48
2017. Seq2sql: Generating structured queries from natural language using reinforcement learning. 2017. Seq2sql: 強化学習を使用して自然言語から構造化クエリを生成する。 0.73
arXiv preprint arXiv:1709.00103. arXiv preprint arXiv:1709.00103 0.71
Yaoming Zhu, Sidi Lu, Lei Zheng, Jiaxian Guo, Weinan Zhang, Jun Wang, and Yong Yu. Yaoming Zhu, Sidi Lu, Lei Zheng, Jiaxian Guo, Weinan Zhang, Jun Wang, Yong Yu 0.70
2018. Texygen: A benchmarking platform for text generation models. 2018. texygen: テキスト生成モデルのためのベンチマークプラットフォーム。 0.84
In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval, SIGIR 2018, Ann Arbor, MI, USA, July 0812, 2018, pages 1097–1100. 41st International ACM SIGIR Conference on Research & Development in Information Retrieval, SIGIR 2018, Ann Arbor, MI, USA, July 0812, 2018, page 1097–1100。 0.83
ACM. Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. ACM。 Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B 0.82
Brown, Alec Radford, Dario Amodei, Paul Christiano, and Geoffrey Irving. Brown, Alec Radford, Dario Amodei, Paul Christiano, Geoffrey Irving 0.71
2019. Fine-tuning language models from human preferences. 2019. 人間の好みによる微調整言語モデル。 0.77
CoRR, abs/1909.08593. CoRR, abs/1909.08593。 0.59
英語(論文から抽出)日本語訳スコア
A Hyperparameters and implementation ハイパーパラメータと実装 0.66
details We implemented all models using PyTorch (Paszke et al , 2019) and HuggingFace (Wolf et al , 2019). 詳細 PyTorch (Paszke et al , 2019) と HuggingFace (Wolf et al , 2019) を使ってすべてのモデルを実装した。 0.77
Training the initial generative model took 10 days on 3 Nvidia Tesla T4 GPUs. 最初の生成モデルのトレーニングは、nvidia tesla t4 gpu 3台で10日間かかった。 0.72
For a detailed list of hyperparameter values, see Table 1. ハイパーパラメータ値の詳細なリストは、テーブル1を参照してください。 0.72
Hyperparameter base LM number of params number of layers number of heads vocabulary size sequence length hidden state size activation function optimizer initial learning rate learning rate scheduler batch size total gradient updates dropout rate hyperparameter base lm number of params number of layers number of head vocabulary size sequence length hidden state size activation function optimizer initial learning rate learning rate scheduler batch size total gradient updates dropout rate 0.83
Value gpt2-small 117m 12 12 50257 128 768 gelu Adam (Kingma and Ba, 2014) 5 × 10−5 linear 24 20069 0.1 gpt2-small 117m 12 12 50257 128 768 gelu Adam (Kingma and Ba, 2014) 5 × 10−5 linear 24 20069 0.1 0.90
Table 1: Hyperparameters used for training the initial generative model a 表1:初期生成モデルaの訓練に用いられるハイパーパラメータ 0.91
The implementation of KL-DPG was based on code published by Khalifa et al (2021).9 Each finetuning run took approximately 5 days on 2 Nvidia V100 GPUs. KL-DPGの実装は、Khalifa et al (2021.9)のコードに基づいており、それぞれの微調整はNvidia V100 GPUで約5日間かかった。 0.67
For a detailed list of hyperparameter values, see Table 2. ハイパーパラメータ値の詳細なリストは、テーブル2を参照してください。 0.73
Hyperparameter optimizer learning rate α(θ) learning rate scheduler batch size warmup gradient updates total gradient updates sequence length dropout rate hyperparameter optimizer learning rate α(θ) learning rate scheduler batch size warmup gradient updates total gradient updates sequence length dropout rate 0.85
Value Adam (Kingma and Ba, 2014) 1.41 × 10−6 linear 2048 100 250 128 0.1 Value Adam (Kingma and Ba, 2014) 1.41 × 10−6 linear 2048 100 250 128 0.1 0.89
Table 2: Hyperparameters used for training πθ using KL-DPG and Reinforce 表2:KL-DPGとReinforceを用いたπθのトレーニングに用いるハイパーパラメータ 0.69
9https://github.com/ naver/gdc 9https://github.com/ naver/gdc 0.36
英語(論文から抽出)日本語訳スコア
b(x) Program b(x) プログラム 0.82
def test_3_invalid(self) : def test_3_invalid(self) : 0.75
0 0 1 0 1 0 0 0 1 0 1 0 0.85
1 0 1 1 0 1 1 0 1 1 0 1 0.85
1 1 serializer = serializer.validated _manager['quarterly_ cred'] serializer.user = 'token' self.verify_token(ep sg = serializer.DBModes,[serializer.user]) 1 1 serializer = serializer.validated _manager['quarterly_ cred'] serializer.user = 'token' self.verify_token(ep sg = serializer.DBModes,[serializer.user]) 0.82
def delete(self,username ,password = None): def delete(self,username ,password = None): 0.85
if username: if username.startswith( "oil",None)or username.startswith( '"",True): ユーザ名: username.startswith( "oil",None) または username.startswith( '"",True): 0.66
raise HttpRequest() raise HttpRequest() 0.85
db.model.delete.asse rt_called_with(usern ame,'password') db.model.delete.asse rt_called_with(usern ame,'password') 0.55
def mode(self): def mode (複数形 def modes) 0.77
self._mode = 'modeM_GB' return self self._mode = 'modeM_GB' return self 0.69
def _update_update_tbl(s elf,new_worksheet): def _update_update_tbl(s elf,new_worksheet): 0.66
self._merge_tbl(new_ worksheet,old_worksh eet) self._create_where(& #x27;x1') self._update_tbl(&#x 27;x1',{ }).extend([str(new_fh.getvalue( ))) self._clear_sql() self.clear_lstrip() self.pop.set('x1')[int(col)for param in['x1','y1']] self.flush.update() self._merge_tbl(new_ worksheet,old_worksh eet) self._create_where(& #x27;x1') self._update_tbl(&#x 27;x1',{ })extend([str(new_fh.getvalue( )) self._clear_sql() self.clear_lstrip() self.pop.set('x1')[int(col) for param in['x1','y1']] self.flush.update() 0.77
def _callResourceCost(se lf,server): def _callResourceCost(se lf,server): 0.94
response = urllib.Request(' ;GET','//api//log//%s//dete cted//' % server.id) body = urllib. response = urllib.Request(' ;GET','/api//log//%s//detec ted//' % server.id) body = urllib。 0.74
urllib2.urlencode(bo dy) response.headers['X-Basic-Control-Auth orization']= self.oauth_client.Cl ient.CertResponse(re sponse.body) return response urllib2.urlencode(bo dy) response.headers['X-Basic-Control-Auth orization']= self.oauth_client.Cl ient.CertResponse(re sponse.body) return response 0.59
def _pre_save(self,data) : def _pre_save(self,data) 0.92
self.calculate_updat es([item.resolve(data['output')]= yield (cid:44)→ self.calculate_updat es([item.resolve(data['output')]= yield (cid:44)→ 0.96
data['output'].find('top',['mybounce','geodeIB']))) data['output'].find('top',['mybounce', 'geodeIB'])) 0.56
def read(self): def read(self): 0.85
self.offset -= 1 start = O8(self) while time.time()- start: self.offset -= 1 start = O8(self) while time.time()- start: 1.00
return self.get_index(start ) get self.get_index(start ) 0.54
def Pub(self): def Pub(self): 0.85
r = PCHAP() r['where']= struct.unpack('!T',self.digest)) response = MKchronosOPS('R') self.sendMessage(res ponse) return self.Response(respon se) r = PCHAP() r['where']= struct.unpack('!T',self.digest)) response = MKchronosOPS('R') self.sendMessage(res ponse) return self.response(respon se) 0.87
def __init__(self,curren t_node): def _init__(self,current _node) 0.89
self.current_node = current_loadbalancer self.assign_current_ node = None self.parenting = None if self.menu: self.current_node = current_loadbalancer self.assign_current_ node = none self.parenting = none if self.menu: 0.52
self.getNodeSelector (Index(RemovelineToR ow,self.parent.posit ion),0,2.0,5.0) self.getNodeSelector (Index(RemovelineToR ow,self.parent.posit ion), 0,2.0,5.0) 0.51
self.show_parent() self.show_parent() 0.59
def get_response_data(se lf): def get_response_data(se lf): 0.75
return { (cid:44)→ (cid:44)→ return { (cid:44)→ (cid:44)→ 0.86
'from_blob_client 7;:self.to_blob_key,&# x27;as_blob_secret':self.to_project_sec ret.to_secret(), 7;json':self.to_storage } 'from_blob_client 7;:self.to_blob_key,&# x27;as_blob_secret':self.to_project_sec ret.to_secret(), 7;json':self.to_storage } 0.50
def put(self,key,expire = True): def put(self,key,expire = True): 0.85
if not invert: dict = { } dict.update(key,self .__TestStepities[key]) 逆でない場合: dict = { } dict.update(key,self ._teststepities[key]) 0.93
self.cs.put(self._uZ ED_ATTRIBUTES_ =[("sequential_command&q uot;,"duration",key,expire)]= "//?modified:%r" % (cid:44)→ self.cs.put(self._uZ ED_ATTRIBUTES_ =[("sequential_command&q uot;,"duration",key,expire)]= "//?modified:%r" % (cid:44)→ 0.92
key,queue_text = self.__kneeators["expires"]) key,queue_text = self._kneeators["expires"]) 0.91
def testPath(self): def testPath(self): 0.85
t = Gaffer.Reader(self.c allback) dupe = "" f.mkdir(t) f = sys.stdout.tell() f.write('_') self.assertEqual(f,d ataponCollision) t = Gaffer.Reader(self.c allback) dupe = "" f.mkdir(t) f = sys.stdout.tell() f.write('_') self.assertEqual(f,d ataponCollision) 0.92
def get_count(self): def get_count(self): 0.92
return self.get_implicit_co unt() get self.get_implicit_co unt() 0.46
def is_alive(self): def is_alive(self): 0.92
return(self.pid,)and (self.pid == 400) return(self.pid,)and (self.pid == 400) 0.88
Table 3: Sequences sampled from the original generative model a 表3:オリジナルの生成モデルからサンプリングされたシーケンス 0.88
英語(論文から抽出)日本語訳スコア
b(x) Program b(x) プログラム 0.82
def fetch_size(self,page ): def fetch_size(self,page ): 0.96
0 0 1 1 1 0 0 0 1 1 1 0 0.85
0 1 1 0 0 0 0 1 1 0 0 0 0.85
1 1 response = self.fetch(page,max( (2)) constant(response.js on(),response.pop(&# x27;utf-8')) payload = "%s//%s//%s//%s//%s&q uot; %(self.resource.id,p age.format_from_byte s()) return payload 1 1 response = self.fetch(page,max( (2)) constant(response.js on(), response.pop('utf-8')) payload = "%s//%s//%s//%s//%s&q uot; %(self.resource.id,p age.format_from_byte s()) return payload 0.84
def setUp(self): def setUp(self): 0.85
self.project_loader = testutil.FileSentenc eDependencyGraph(ext ensions =['file','path']) self.schema =RelatedPackage preserveLoader(root_ loader) self.extension_conte xt = XMLLoader() self.project_loader = testutil.FileSentenc eDependencyGraph(ext ensions = ['file', 'path']) self.schema = RelatedPackageserveL oader(root_loader) self.extension_conte xt = XMLLoader() 0.75
def __getattr__(self,per m): def __getattr__(self,per m): 0.94
return self._memo.get(perm) return self._memo.get(perm) 0.71
def expand(self,text): def expand(self,text): 0.85
value.strip() return extract_cseq(text) value.strip() return extract_cseq(text) 0.81
def test_Obze(self): def test_Obze(self): 0.92
w = Command() self.assertEqual(w.c allHeader.callHeader ,self.result) w = Command() self.assertEqual(w.c allHeader.callHeader ,self.result) 0.71
def start_stream(self,ad dressFamily,opcode): def start_stream(self,ad dressFamily,opcode): 1.00
logger.info("OpenlibwriteStructBe gin chunkon.csv',OperationalError()) error_message = self.get_stream([None,None]) message,message = self.block_messages[0] message = message[0] self._process_messag e(message,message,me ssage,message) logger.info("OpenlibwriteStructBe gin chunkon.csv',OperationalError()) error_message = self.get_stream([None,None]) message,message = self.block_messages[0] message = message[0] self._process_messag e(message,message,me ssage,message)) 0.89
def set_dense(self,srs,f it_to): def set_dense(self,srs,f it_to): 0.86
if dup in self.scalar: 自分でダップするなら スカラー: 0.50
return if not isinstance(modality, (pyobj): 返却 isinstance(modality, (pyobj): 0.64
self.sq =SUBNET self.sq =SUBNET 0.59
self.basic = asim.bin.sample(srs, rng = self.ctypes,trials = self.rng,dtype = self.dtype) self.basic = asim.bin.sample(srs, rng = self.ctypes,trials = self.rng,dtype = self.dtype) 0.72
def _act(self,value): def _act(self, value): 0.93
self._result.set_arg ument('value',value) self._result.set_arg ument('value', value) 0.72
def _verify_ssling_acces s_admin(self,ip_name ): def _verify_ssling_acces s_admin(self,ip_name ) 0.60
self._check_proxy(ip _name) self._check_proxy(ip _name) 0.53
def __str__(self): def _str__(self): 0.94
r =[] for s in self.__dict__.items( ): r = [] for s in self._dict__items() 0.96
if s[0]in BoundCacheContents() : if s[0]in BoundCacheContents() 0.75
break if s[:- 1]:Elements([("Unsupported Ct%s]" % ','.join(self.__class__ .__name__)) return "Data attribute '%s' % ','.join("%sCHOICES from %s" %(WARNING,str(r))) 休憩 s[:- 1]:Elements([("Un supporteded Ct%s]" % ','.join(self._class___ _name__)) return "Data attribute '%s' % ','.join("%sCHOICES from %s" %(WARNING,str(r)))
訳抜け防止モード: 休憩 s[:- 1]:elements([("unsupported ct%s ] " % ', ' .join(self._class__. __name _ _ _ ) ) return " data attribute ' % s ' % ','.join("%schoices" を返します。 % s " % (警告 , str(r ) ) から。
0.70
def test_FaceIP_3D_14(se lf): def test_FaceIP_3D_14(se lf): 0.59
self.assertTrue(self .doTestFace(self.doT estFace([self.doTestFace([False,False)]) self.assertTrue(self .doTestFace(self.doT estFace([self.doTestFace([False,False)])) 0.95
def __init__(self,** options): def _init__(self,**) オプション: 0.65
super(_ChoiceTest,se lf).__init__(** options) self.action_classes = options["cells_store"] self.choices =(1.2,** options["mysql"]= FakeMissingTuple()) self.parser = Message(list.__init_ _(option_forms)) super(_ChoiceTest,se lf.__init__(** options) self.action_classes = options["cells_store"] self.choices =(1.2,** options["mysql"]= FakeMissingTuple()) self.parser = Message(list._init__ (option_forms))) 0.99
def main(self,client): def main(self,client): 0.85
remove_home_config(c lient,"client_snapshot_url& quot;) self.client.client_s napshot.update(clien t) remove_home_config(c lient",client_snapshot_url ) self.client.client_s napshot.update(clien t) 0.56
def _stop_signal(self,em itter,datafile,for_a ttachment): def _stop_signal(self,em itter,datafile,for_a ttachment) 0.86
vim.gui.target_cance l() vim.gui.target_cance l() 0.47
Table 4: Sequences sampled from a policy fine-tuned using KL-DPG 表4:KL-DPGを用いた政策微調整から採取したシーケンス 0.70
英語(論文から抽出)日本語訳スコア
b(x) Program b(x) プログラム 0.82
1 1 1 1 1 1 1 1 1 1 1 1 0.85
1 1 1 1 1 1 1 1 1 1 1 1 0.85
1 1 def invalidateKey(self): 1 1 def invalidateKey(self): 0.85
self.action.rooms = { } self.action.rooms = { } 0.65
def get(self): def get (複数形 def gets) 0.55
return self.handler.identif ier return self.handler.identif ier 0.50
def flush(self): def flush (複数形 def flushs) 0.76
self.write("ready") self.write("ready") 0.85
def get_flavor(self,reso urce,path,** metadata): def get_flavor(self,reso urce,path,**メタデータ) 0.78
return self.context.get(res ource,path,** metadata) self.context.get(res ource,path,**)メタデータを返す 0.84
def test_api_set_to_resu lt(self): def test_api_set_to_resu lt(self): 0.55
X = T.ListHead() self.assertEquals(qu antiles(X),self._cac he.annotations) X = T.ListHead() self.assertEquals(qu antiles(X),self._cac he.annotations) 0.80
def is_cmp(self,other): def is_cmp(self,other): 0.96
return not self._safe_eq(other, self.link) return not self._safe_eq(other, self.link) 0.71
def __iter__(self): def __iter__(self): 0.97
return iter(self._reverse() ) iter(self._reverse() ) 0.83
def cancel(self): def cancel (複数形 def cancels) 0.78
return self.enhanced_window .set_timeout() return self.enhanced_window .set_timeout() 0.45
def __str__(self): def _str__(self): 0.94
return str(self.repository) repository (複数形 repositorys) 0.49
def summary(self): def summary (複数形 def summarys) 0.72
return self._series return self._series 0.71
def Lazypeer(self): def Lazypeer (複数形 def Lazypeers) 0.74
return self._peer return self._peer 0.71
def ByteSize(self): def ByteSize(self): 0.85
n = 0 n += self.lengthString(le n(self.parameters_)) return n + self.lengthString(nu mber(self.value_)) n = 0 n += self.lengthString(le n(self.parameters_)) return n + self.lengthString(nu mber(self.value_)) 0.90
def setUp(self): def setUp(self): 0.85
super(TestMaUserRole TestCase,self).setUp () self.core =BER() self.topsetup_existi ng = False super(TestMaUserRole TestCase,self.setUp( ) self.core =BER() self.topsetup_existi ng = False 0.83
def __init__(self,** kwargs): def __init__(self,** kwargs): 0.77
self.sourcemersListC omp = kwargs.get('stretch {}'.format(self.__class __.twsourceCentOS_te xt)) self.sourcemersListC omp = kwargs.get('stretch {}'.format(self.__class __.twsourceCentOS_te xt)) 0.70
Table 5: Sequences sampled from a policy fine-tuned using Reinforce with R(x) = b(x) 表5: R(x) = b(x) を用いたReinforce を用いた政策微調整からサンプリングされたシーケンス 0.74
英語(論文から抽出)日本語訳スコア
b(x) Program b(x) プログラム 0.82
1 1 1 1 1 1 1 1 1 1 1 1 0.85
1 1 1 1 1 1 1 1 1 1 1 1 0.85
1 1 1 1 def set_OwnerId(self,Own erId): 1 1 1 1 def set_OwnerId(self,Own erId): 0.87
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
def set_OwnerId(self,Own erId): def set_OwnerId(self,Own erId): 0.96
self.add_query_param ('OwnerId',OwnerId) self.add_query_param ('OwnerId', OwnerId') 0.71
Table 6: Sequences sampled from a policy finetuned using Reinforce with R(x) = P (x) 表6: R(x) = P(x) でReinforce を用いて微調整されたポリシーからのシーケンス 0.80
英語(論文から抽出)日本語訳スコア
b(x) Program b(x) プログラム 0.82
1 1 1 1 1 1 1 1 1 1 1 1 0.85
1 1 1 1 1 1 1 1 1 1 1 1 0.85
Sequences sampled from the original generative model a 原生成モデルaからサンプリングされた配列 0.81
def closeEvent(self): def closeEvent(self): 0.85
self._isalive = False self._original_resum e = True self._isalive = false self._original_resum e = true 0.61
def close_file(self): def close_file(self): 0.92
pass def closeWorking(self): 通過 def closeWorking(self): 0.75
pass def close(self): 通過 def close (複数形 def closes) 0.68
if not self.closed: self.closed = True 自己でなければ self.closed = True 0.68
Sequences sampled from a policy fine-tuned using KL-DPG KL-DPGを用いた政策微調整からのサンプルデータ 0.63
self.translation.clo se() self.translation.clo se() 0.59
def close(self): def close (複数形 def closes) 0.70
self.queue.Importer. close(self.info) self.open_input.clos e() self.graph.close(sel f.gamma) self.queue.Importer. close(self.info) self.open_input.clos e() self.graph.close(sel f.gamma) 0.44
def close(self): def close (複数形 def closes) 0.70
try: self.srv.get_browser .mac(self.bus_proces s.name,vm_output = True) 試してみろ self.srv.get_browser .mac(self.bus_proces s.name,vm_output = True) 0.47
except suspended as ex: exとして停止する以外は 0.52
self.socket.stop(ex) self.socket.stop(ex) 0.65
Sequences sampled from a policy fine-tuned using Reinforce with R(x) = b(x) R(x) = b(x) を持つReinforce を用いた政策微調整からサンプリングされた系列 0.71
def close(self): def close (複数形 def closes) 0.70
self._stdout.close() self._stdout.close() 0.59
def close(self): def close (複数形 def closes) 0.70
self.idb.close() self.idb.close() 0.59
def close(self): def close (複数形 def closes) 0.70
self.reuse = subprocess.Popen(&#x 27;CONNECTION','').unregisterProducer () p = subprocess.Popen() p.communicate().clos e() return u.close() self.reuse = subprocess.Popen(&#x 27;CONNECTION','').unregisterProducer () p = subprocess.Popen() p.communicate(.close () return u.close() 0.94
def close(self,object): def close (複数形 def closes) 0.63
Sequences sampled from a policy fine-tuned using Reinforce with R(x) = P (x) R(x) = P(x) を用いたReinforce を用いた政策微調整からサンプリングされた系列 0.70
self.api.close(self. uid.length) self.api.close(self. uid.length) 0.45
def close(self): def close (複数形 def closes) 0.70
self.job_closed.remo ve(self) self.job_closed.remo ve(self) 0.53
def close(self): def close (複数形 def closes) 0.70
self.buffer.flush() self.buffer.flush() 0.59
Table 7: Samples obtained from policies conditioned on prompt def close 表7:プロンプトデフクローズの条件付きポリシーから得られたサンプル 0.77
英語(論文から抽出)日本語訳スコア
b(x) Program b(x) プログラム 0.82
0 0 1 1 0 1 0 0 1 1 0 1 0.85
1 1 0 0 1 1 1 1 0 0 1 1 0.85
def fit_pdf(self,hop,the ta,theta): def fit_pdf(self,hop,the ta,theta): 0.98
asserttriangular is self._fit_rewrite(ho p, kernel,theta,theta)- gtheta,70) assertworkspace isTType.ACCEPTED_ign ore assert subset in(coeff,Y) assert self._Xfd != xOpenStackBackendErr or assert isinstance(750,Win,T ,Vector) asserttriangular is self._fit_rewrite(ho p, kernel,theta,theta)- gtheta,70) assertworkspace isTType.ACCEPTED_ign ore assert subset in(coeff,Y) assert self._Xfd != xOpenStackBackendErr or assert isinstance(750,Win,T ,Vector) 0.93
Sequences sampled from the original generative model a 原生成モデルaからサンプリングされた配列 0.81
def fit(self,X,y): def fit(self,X,y): 0.85
self._ y = y self._children -= 1 assert isinstance(self._lab els,_MOD_'") x[:]= 0 y[:]=Bio_OFFSET y *= self._labels y * y * y y //= y return y self._ y = y self._children -= 1 assert isinstance(self._lab els,_MOD_') x[:]= 0 y[:]= Bio_OFFSET y *= self._labels y * y * y y //= y return y 0.93
def fit(self,X = None,y = None,result = None): def fit(self,X = None,y = None,result = None): 0.85
sts = self.get_appId(self. mesh_filename,X,y = y,d = result) self.mirror_logpdf([0x9]* indented) sts = self.get_appId(self. mesh_filename,X,y = y,d = result) self.mirror_logpdf([0x9]* indented) 0.79
def fit(self,X,y,* args,** kwargs): def fit(self,X,y,* args,** kwargs): 0.71
X = self.transform(X,y,* args,** kwargs) data = np.DataFrame(data) for i in self.fallback_array. iteration_two(* data): X = self.transform(X,y,* args,** kwargs) data = np.DataFrame(data) for i in self.fallback_array. iteration_two(* data): 0.91
data[i].labels[i].tolist() data[i].labels[i].tolist() 0.85
return data return データ 0.83
Sequences sampled from a policy fine-tuned using KL-DPG KL-DPGを用いた政策微調整からのサンプルデータ 0.63
def fit(self, initial_output = None): def fit(self, initial_output = None): 1.00
if initial_output: initial_output: 0.79
self.force_input = False self.force_input = False 0.59
else: self.cells_done = tuple(initial_output ) その他 self.cells_done = tuple(initial_output ) 0.59
if initial_input == self.WK_MASK: initial_input == self.WK_MASK: 0.55
self.output_output += self.osfstorage_NORM AL self.outputs = list([self.inputState.NORM AL_READ valid]) self.output_output += self.osfstorage_NORM AL self.outputs = list([self.inputState.NORM AL_READ valid]) 0.55
return 1 def fit(self,reshape,a,b ): return 1 def fit(self, reshape,a,b): 0.84
return frappe. filediff(islice(a,b) ,b) フラッペを返せ filediff(islice(a,b) ,b) 0.60
def fit(self,X,y): def fit(self,X,y): 0.85
self.x = y self.x = y 0.78
def fit(self,fit,d): def fit(self,fit,d): 0.85
Sequences sampled from a policy fine-tuned using Reinforce with R(x) = b(x) R(x) = b(x) を持つReinforce を用いた政策微調整からサンプリングされた系列 0.71
self.fit =followers return super(PositionUntilL ockedSequence,self). fit(marks) self.fit =followers return super(PositionUntilL ockedSequence,self.f it(marks) 0.86
def fit(self,X_acc): def fit(self, X_acc): 0.96
X_exog = self.xc1.exog y = self.instance.exog y,= self.model.w2 preserve_uniform(os. environ.XMANllf,y_y) ) y += self.model.t2le continX y = self.transition.fit( y) y.y = self.model.y * y y.red = self.model.gw.urmpop ow(y) return y X_exog = self.xc1.exog y = self.instance.exog y,= self.model.w2 preserve_uniform(os. environ.XMANllf,y_y) ) y += self.model.t2le continX y = self.transition.fit( y) y = self.model.y * y y.red = self.model.gw.urmpop ow(y) return y 0.55
def fit(self,fit,X,y,z): def fit(self,fit,X,y,z): 0.85
Sequences sampled from a policy fine-tuned using Reinforce with R(x) = P (x) R(x) = P(x) を用いたReinforce を用いた政策微調整からサンプリングされた系列 0.70
self.learning = indices[np.zeros(axis = 1Dot,y = y,motion = self. self.learning = indices[np.zeros(axis = 1Dot,y = y,motion = self 0.96
np.loss,y = res.scale)] self.index = y np.loss,y = res.scale)] self.index = y 0.81
def fit(self,params): def fit(self,params): 0.85
self.params_param = params self.params_param = params 0.59
def fit(self,X,y = None): def fit(self,X,y = None) 0.76
self.x = x self.y = x self.x = x self.y = x 0.75
Table 8: Samples obtained from policies conditioned on prompt def fit 表8:promise def fitの条件付きポリシーから得られたサンプル 0.76
英語(論文から抽出)日本語訳スコア
b(x) Program b(x) プログラム 0.82
0 1 0 1 0 0 0 1 0 1 0 0 0.85
1 1 0 0 1 0 1 1 0 0 1 0 0.85
def generate_samples_wit h_prompt(self,input_ value,decimal = False): def generate_samples_wit h_prompt(self,input_ value,decimal = false) 0.75
use_full = False full_input_string = escape_input[decimal] newprefix = local_input_format.s plit("<%s__") % input_label.strip(), [formatted_full]) return newprefix use_full = False full_input_string = escape_input[decimal] newprefix = local_input_format.s plit("<%s__") % input_label.strip(), [formatted_full]) return newprefix 0.85
Sequences sampled from the original generative model a 原生成モデルaからサンプリングされた配列 0.81
def generate_samples_wit h_prompt_publish(sel f): def generate_samples_wit h_prompt_publish(sel f): 0.55
self.overflow = self.percent self.overflow = self.percent 0.59
def generate_samples_wit h_prompt_line(self): def generate_samples_wit h_prompt_line(self): 0.55
lines =[] for line in rc: line = [] for line in rc: 0.75
if line.startswith( 7;_','-'): if line.startswith( 7;_','-'): 0.42
lines.append("{}0%s))" % line.replace(". line.append("{}0\%s)" % line.replace() 0.72
","\n") lines.append(": ".join(lines)) ""\n")行.append(": ".join(lines)) 0.69
lines.appenddsets() lines.append_): if len(lines)> 0: lines.appenddsets() lines.append_: if len(lines)> 0: 0.98
lines.append(lines[0]) line.append(lines[0]) 0.94
return lines return + line 0.70
def generate_samples_wit h_prompt(self): def generate_samples_wit h_prompt(self): 0.63
result = self._generate_blobs ().generate(self._na me,self._amount_in,l ambda x:x.lower()) return result result = self._generate_blobs (.generate(self._nam e,self._amount_in,la mbda x:x.lower()) return result 0.75
Sequences sampled from a policy fine-tuned using KL-DPG KL-DPGを用いた政策微調整からのサンプルデータ 0.63
def (cid:44)→ def (cid:44)→ 0.88
generate_samples_wit h_prompt_token(self, impdly,red,name,rest declarations,restid_ with_mucmapreduce_ac cess_reference,tpver sion): if prefix_to_acked_ level_per_pbfrom_acc ount_version(MACRO25 6): generate_samples_wit h_prompt_token(self, impdly,red,name,rest declarations,restid_ with_mucmapreduce_ac cess_reference,tpver sion): if prefix_to_acked_leve l_per_pbfrom_account _version(macro256) 0.53
return 71212000x00 * c201402E64D + 204 return 71212000x00 * c201402E64D + 204 0.63
self.generate_cant_r gb_signature(FLAG,na me,comtop header, "0|02",["-20001500e6fsha" ;] self.generate_cant_r gb_signature(FLAG,na me,comtop header, "0|02",["-20001500e6fsha" ;] 0.80
def generate_samples_wit h_prompt(self): def generate_samples_wit h_prompt(self): 0.63
tsMAIN_SIZE =(0,1) tsSBream_bin = self.1000 if if tsody_size is not None: tsMAIN_Size =(0,1) tsSBream_bin = self.1000 if tsody_size is None: 0.74
tsbleations = y tsbleations = y 0.85
size = ts86.data.get_input( vid_ docs).get_language() for address in data.SerializeToStri ng()if not region: size = ts86.data.get_input( vid_ docs.get_lang() for address in data.SerializeToStri ng() if not region: 0.70
cpu_ratio = np.zeros(freq.encode ("Now")) tsLOCATION_examples =[self.read_format(add r)for dir in tsningAssignmentInt( )]) cpu_ratio = np.zeros(freq.encode ("Now")) tsLOCATION_examples =[self.read_format(add r) for dir in tsningAssignmentInt( )] 0.99
def generate_samples_wit h_prompt(self): def generate_samples_wit h_prompt(self): 0.63
pass Sequences sampled from a policy fine-tuned using Reinforce with R(x) = b(x) 通過 R(x) = b(x) を持つReinforce を用いた政策微調整からサンプリングされた系列 0.68
def generate_samples_wit h_prompt_indices(sel f): def generate_samples_wit h_prompt_indices(sel f): 0.55
return self.raw_results_wit h.raw_options.random _encoding return self.raw_results_wit h.raw_options.random _encoding 0.21
def generate_samples_wit h_prompt(self,* args,** kwargs): def generate_samples_wit h_prompt(self,* args,** kwargs): 0.97
return self.fit_sum(kwargs -(n))): self.fit_sum(kwargs -(n)) を返します。 0.82
def generate_samples_wit h_prompt(self,cached _done,keep = False): def generate_samples_wit h_prompt(self,cached _done,keep = false) 0.75
if not hasattr(upstream_sho w,'normalize'): hasattr(upstream_sho w, 'normalize'): 0.71
return Sequences sampled from a policy fine-tuned using Reinforce with R(x) = P (x) 返却 R(x) = P(x) を用いたReinforce を用いた政策微調整からサンプリングされた系列 0.71
sm =wb. cppProcessor(cached_ TLS = False) self.maxOccurs = self.concurrency. sm =wb。 cppProcessor(cached_ TLS = False) self.maxOccurs = self.concurrency 0.85
anno_DealList() tool.is(csrf_restore ,lazy = True) self.salt_made(csrf) anno_DealList() tool.is(csrf_restore ,lazy = True) self.salt_made(csrf) 0.72
def generate_samples_wit h_prompt(self): def generate_samples_wit h_prompt(self): 0.63
start = back_start - self.start + self.test_samples(). set_ofmid result =[] for step in range(start): start = back_start - self.start + self.test_samples(.s et_ofmid result =[] for step in range(start): 0.87
result.append(step) result.append(step) result.append(step) result.append(step) 0.81
return result return result 0.85
def generate_samples_wit h_prompt(self,type:: phone_shard = None): def generate_samples_wit h_prompt(self,type:: phone_shard = none) 0.71
return int(int(self.last_of fsets_best_timescale ,type_op = "0")) int(self.last_offset s_best_timescale,typ e_op = "0") 0.80
Table 9: Samples obtained from policies conditioned on prompt def generate samples with prompt 表9:プロンプトdefで条件付けられたポリシーから得られたサンプルはプロンプトでサンプルを生成する 0.68
                                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。