論文の概要: Synthetic Datasets for Neural Program Synthesis
- arxiv url: http://arxiv.org/abs/1912.12345v1
- Date: Fri, 27 Dec 2019 21:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 22:57:06.034737
- Title: Synthetic Datasets for Neural Program Synthesis
- Title(参考訳): ニューラルプログラム合成のための合成データセット
- Authors: Richard Shin, Neel Kant, Kavi Gupta, Christopher Bender, Brandon
Trabucco, Rishabh Singh, Dawn Song
- Abstract要約: 本稿では,プログラムと仕様の両方で合成データ分布のバイアスを制御し,評価するための新しい手法を提案する。
そこで我々は,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することが実証された。
- 参考スコア(独自算出の注目度): 66.20924952964117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of program synthesis is to automatically generate programs in a
particular language from corresponding specifications, e.g. input-output
behavior. Many current approaches achieve impressive results after training on
randomly generated I/O examples in limited domain-specific languages (DSLs), as
with string transformations in RobustFill. However, we empirically discover
that applying test input generation techniques for languages with control flow
and rich input space causes deep networks to generalize poorly to certain data
distributions; to correct this, we propose a new methodology for controlling
and evaluating the bias of synthetic data distributions over both programs and
specifications. We demonstrate, using the Karel DSL and a small Calculator DSL,
that training deep networks on these distributions leads to improved
cross-distribution generalization performance.
- Abstract(参考訳): プログラム合成の目標は、入力出力動作など、対応する仕様から特定の言語でプログラムを自動的に生成することである。
現在の多くのアプローチは、ロバストフィルの文字列変換のように、限定されたドメイン固有言語(dsl)でランダムに生成されたi/oサンプルをトレーニングした後、印象的な結果を得る。
しかし、制御フローとリッチな入力空間を持つ言語にテスト入力生成技術を適用すると、深層ネットワークが特定のデータ分布に悪影響を及ぼすことを実証的に発見し、これを補正するために、プログラムと仕様の両方にまたがる合成データ分布のバイアスを制御し評価する新しい手法を提案する。
本稿では,Karel DSLと小さなCalculator DSLを用いて,これらの分布上でのディープネットワークのトレーニングにより,分散一般化性能が向上することを示す。
関連論文リスト
- The Graph's Apprentice: Teaching an LLM Low Level Knowledge for Circuit Quality Estimation [34.37154877681809]
We introduced VeriDistill, the first end-to-end machine learning model that direct process raw Verilog code to predict circuit quality-of-result metrics。
本モデルでは,LLMに基づく低レベル回路インサイトを予測器に転送する,新しい知識蒸留法を採用している。
実験では、VeriDistillは大規模なVerilogデータセット上で最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-10-30T04:20:10Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Enhancing Network Management Using Code Generated by Large Language
Models [15.557254786007325]
本稿では,大規模言語モデル(LLM)を用いて自然言語クエリからタスク固有コードを生成することにより,自然言語ベースのネットワーク管理エクスペリエンスを促進する新しいアプローチを提案する。
この方法は、ネットワークオペレーターが生成されたコードを検査できるようにすることで、説明可能性、スケーラビリティ、プライバシの課題に取り組む。
ベンチマークアプリケーションを用いてプロトタイプシステムを設計,評価し,高い精度,コスト効率,さらなる拡張の可能性を示す。
論文 参考訳(メタデータ) (2023-08-11T17:49:15Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Hybridization of Capsule and LSTM Networks for unsupervised anomaly
detection on multivariate data [0.0]
本稿では,Long-Short-Term-Memory(LSTM)とCapsule Networksを1つのネットワークに結合した新しいNNアーキテクチャを提案する。
提案手法は教師なし学習手法を用いて大量のラベル付きトレーニングデータを見つける際の問題を克服する。
論文 参考訳(メタデータ) (2022-02-11T10:33:53Z) - Latent Execution for Neural Program Synthesis Beyond Domain-Specific
Languages [97.58968222942173]
入力出力の例からCプログラムを合成する第一歩を踏み出す。
特に,部分生成プログラムの実行を近似するために潜在表現を学習するLa Synthを提案する。
これらのプログラムのトレーニングにより,Karel と C のプログラム合成における予測性能がさらに向上することを示す。
論文 参考訳(メタデータ) (2021-06-29T02:21:32Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - PLANS: Robust Program Learning from Neurally Inferred Specifications [0.0]
ルールベースのアプローチは、教師なしの方法で正確性を保証する一方で、ニューラルネットワークは生の高次元入力に対してより現実的にスケーラブルである。
本稿では,視覚観測からプログラムを合成するためのハイブリッドモデルPLANSを紹介する。
我々は,Karel と ViZDoom 環境における様々なデモビデオから,プログラム合成における最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2020-06-05T08:51:34Z) - Creating Synthetic Datasets via Evolution for Neural Program Synthesis [77.34726150561087]
いくつかのプログラム合成手法は、ランダムに生成された例と異なるデータ分布によく一般化されていることを示す。
本稿では, 合成データ分布のバイアスを制御し, 現在の手法より優れていることを示すための, 新たな敵対的手法を提案する。
論文 参考訳(メタデータ) (2020-03-23T18:34:15Z) - Controlled time series generation for automotive software-in-the-loop
testing using GANs [0.5352699766206808]
オートマチックメカトロニクスシステムのテストは、部分的にはソフトウェア・イン・ザ・ループ・アプローチを使用し、システム・アンダー・テストのインプットを体系的にカバーすることが大きな課題である。
ひとつのアプローチは、テストプロセスの制御とフィードバックを容易にする入力シーケンスを作成することだが、現実的なシナリオにシステムを公開できない。
もうひとつは、現実を説明できるフィールド操作から記録されたシーケンスを再生するが、広く使われるには十分なキャパシティの十分なラベル付きデータセットを収集する必要があるため、コストがかかる。
この研究は、GAN(Generative Adrial Networks)のよく知られた教師なし学習フレームワークを適用して、記録された車内データのラベルなしデータセットを学習する。
論文 参考訳(メタデータ) (2020-02-16T16:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。