論文の概要: Reinforcement Learning for Syntax-Guided Synthesis
- arxiv url: http://arxiv.org/abs/2307.09564v1
- Date: Thu, 13 Jul 2023 11:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-23 12:09:19.942272
- Title: Reinforcement Learning for Syntax-Guided Synthesis
- Title(参考訳): 構文誘導合成のための強化学習
- Authors: Julian Parsert and Elizabeth Polgreen
- Abstract要約: 我々はモンテカルロ木探索(MCTS)に基づくSyGuSの強化学習誘導合成アルゴリズムを提案する。
我々のアルゴリズムは、学習されたポリシーと価値関数と、探索と搾取のバランスをとるために木に縛られた上位信頼度を組み合わさったものである。
データセットを公開し、SyGuS問題への機械学習手法のさらなる適用を可能にします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Program synthesis is the task of automatically generating code based on a
specification. In Syntax-Guided Synthesis(SyGuS) this specification is a
combination of a syntactic template and a logical formula, and any generated
code is proven to satisfy both. Techniques like SyGuS are critical to
guaranteeing correct synthesis results. Despite the proliferation of machine
learning in other types of program synthesis, state-of-the-art techniques in
SyGuS are still driven by automated reasoning tools and simple enumeration. We
hypothesize this is for two reasons: first the complexity of the search
problem, and second the relatively small data sets available. In this work, we
tackle these challenges by framing general SyGuS problems as a tree-search, and
present a reinforcement learning guided synthesis algorithm for SyGuS based on
Monte-Carlo Tree Search (MCTS). Our algorithm incorporates learned policy and
value functions combined with the upper confidence bound for trees to balance
exploration and exploitation. We incorporate this search procedure in a
reinforcement learning setup in order to iteratively improve our policy and
value estimators which are based on boosted tree models. To address the
scarcity of training data, we present a method for automatically generating
training data for SyGuS based on \emph{anti-unification} of existing
first-order satisfiability problems, which we use to train our MCTS policy. We
implement and evaluate this setup and demonstrate that learned policy and value
improve the synthesis performance over a baseline enumerator by over $26$
percentage points in the training and testing sets. With these results our tool
outperforms state-of-the-art-tools such as CVC5 on the training set and
performs comparably on the testing set. We make our data set publicly
available, enabling further application of machine learning methods to the
SyGuS problem.
- Abstract(参考訳): プログラム合成は、仕様に基づいてコードを自動的に生成するタスクである。
syn-guided synthesis(sygus)では、この仕様は構文テンプレートと論理式の組み合わせであり、生成されたコードは両方を満たすことが証明されている。
SyGuSのような技術は正しい合成結果を保証するために重要である。
他のタイプのプログラム合成における機械学習の普及にもかかわらず、SyGuSの最先端技術は依然として自動推論ツールと単純な列挙によって駆動されている。
これは2つの理由から仮説を立てる: まず検索問題の複雑さ、そして2つ目が比較的小さなデータセットである。
本研究では,木探索として一般的なシグス問題を取り上げ,モンテカルロ木探索(mcts)に基づくシグスに対する強化学習誘導合成アルゴリズムを提案する。
本アルゴリズムは,学習方針と価値関数と,探索と搾取のバランスをとる木に対する高い信頼度を組み合わせたものである。
我々は,この検索手順を強化学習環境に組み込んで,ブーストツリーモデルに基づくポリシーと価値評価子を反復的に改善する。
トレーニングデータの不足に対処するため,既存の1次満足度問題の「emph{anti-unification}」に基づいて,SyGuSのトレーニングデータを自動的に生成する手法を提案する。
この設定を実装して評価し、学習方針と価値がベースライン列挙器上での合成性能をトレーニングおよびテストセットの26ドル以上のポイントで向上することを示した。
これらの結果から,CVC5などの最先端ツールをトレーニングセットで上回り,テストセットで互換性のあるパフォーマンスを実現した。
データセットを公開し、SyGuS問題への機械学習手法のさらなる適用を可能にします。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Topological Guided Actor-Critic Modular Learning of Continuous Systems
with Temporal Objectives [2.398608007786179]
本研究では,線形時間論理の高レベル仕様を与えられた連続状態力学系の公式なポリシー合成について検討する。
ニューラルネットワークを用いて、ハイブリッド製品状態空間の値関数とポリシー関数を近似する。
論文 参考訳(メタデータ) (2023-04-20T01:36:05Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Network Support for High-performance Distributed Machine Learning [17.919773898228716]
学習ノード(計算を行う)と情報ノード(データを提供する)の両方をキャプチャするシステムモデルを提案する。
次に,学習課題を完了させるために,学習ノードと情報ノードが協調して行うべき課題と,実行すべきイテレーション数を選択する問題を定式化する。
我々はDoubleClimbというアルゴリズムを考案し、1+1/|I|競合解を見つけることができる。
論文 参考訳(メタデータ) (2021-02-05T19:38:57Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z) - Grammar Filtering For Syntax-Guided Synthesis [6.298766745228328]
PBE問題を解決するために,自動推論技術を用いて機械学習をタンデムで使用するシステムを提案する。
ニューラルネットワークでSyGuS PBE問題を前処理することで、探索空間のサイズを減らすためにデータ駆動アプローチを使うことができる。
我々のシステムは既存のSyGuS PBE合成ツール上で動作することができ、2019年のSyGuSコンペティションの勝者のランタイムを47.65%削減できる。
論文 参考訳(メタデータ) (2020-02-07T16:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。