Fugu-MT 論文翻訳(概要): Reinforcement Learning for Syntax-Guided Synthesis

論文の概要: Reinforcement Learning for Syntax-Guided Synthesis

arxiv url: http://arxiv.org/abs/2307.09564v1
Date: Thu, 13 Jul 2023 11:30:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-23 12:09:19.942272
Title: Reinforcement Learning for Syntax-Guided Synthesis
Title（参考訳）: 構文誘導合成のための強化学習
Authors: Julian Parsert and Elizabeth Polgreen
Abstract要約: 我々はモンテカルロ木探索(MCTS)に基づくSyGuSの強化学習誘導合成アルゴリズムを提案する。我々のアルゴリズムは、学習されたポリシーと価値関数と、探索と搾取のバランスをとるために木に縛られた上位信頼度を組み合わさったものである。データセットを公開し、SyGuS問題への機械学習手法のさらなる適用を可能にします。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Program synthesis is the task of automatically generating code based on a specification. In Syntax-Guided Synthesis(SyGuS) this specification is a combination of a syntactic template and a logical formula, and any generated code is proven to satisfy both. Techniques like SyGuS are critical to guaranteeing correct synthesis results. Despite the proliferation of machine learning in other types of program synthesis, state-of-the-art techniques in SyGuS are still driven by automated reasoning tools and simple enumeration. We hypothesize this is for two reasons: first the complexity of the search problem, and second the relatively small data sets available. In this work, we tackle these challenges by framing general SyGuS problems as a tree-search, and present a reinforcement learning guided synthesis algorithm for SyGuS based on Monte-Carlo Tree Search (MCTS). Our algorithm incorporates learned policy and value functions combined with the upper confidence bound for trees to balance exploration and exploitation. We incorporate this search procedure in a reinforcement learning setup in order to iteratively improve our policy and value estimators which are based on boosted tree models. To address the scarcity of training data, we present a method for automatically generating training data for SyGuS based on \emph{anti-unification} of existing first-order satisfiability problems, which we use to train our MCTS policy. We implement and evaluate this setup and demonstrate that learned policy and value improve the synthesis performance over a baseline enumerator by over $26$ percentage points in the training and testing sets. With these results our tool outperforms state-of-the-art-tools such as CVC5 on the training set and performs comparably on the testing set. We make our data set publicly available, enabling further application of machine learning methods to the SyGuS problem.
Abstract（参考訳）: プログラム合成は、仕様に基づいてコードを自動的に生成するタスクである。 syn-guided synthesis(sygus)では、この仕様は構文テンプレートと論理式の組み合わせであり、生成されたコードは両方を満たすことが証明されている。 SyGuSのような技術は正しい合成結果を保証するために重要である。他のタイプのプログラム合成における機械学習の普及にもかかわらず、SyGuSの最先端技術は依然として自動推論ツールと単純な列挙によって駆動されている。これは2つの理由から仮説を立てる: まず検索問題の複雑さ、そして2つ目が比較的小さなデータセットである。本研究では,木探索として一般的なシグス問題を取り上げ,モンテカルロ木探索(mcts)に基づくシグスに対する強化学習誘導合成アルゴリズムを提案する。本アルゴリズムは,学習方針と価値関数と,探索と搾取のバランスをとる木に対する高い信頼度を組み合わせたものである。我々は,この検索手順を強化学習環境に組み込んで,ブーストツリーモデルに基づくポリシーと価値評価子を反復的に改善する。トレーニングデータの不足に対処するため,既存の1次満足度問題の「emph{anti-unification}」に基づいて,SyGuSのトレーニングデータを自動的に生成する手法を提案する。この設定を実装して評価し、学習方針と価値がベースライン列挙器上での合成性能をトレーニングおよびテストセットの26ドル以上のポイントで向上することを示した。これらの結果から,CVC5などの最先端ツールをトレーニングセットで上回り,テストセットで互換性のあるパフォーマンスを実現した。データセットを公開し、SyGuS問題への機械学習手法のさらなる適用を可能にします。

関連論文リスト

CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks [57.482238100217195]
合成データ生成手法CoT-Self-Instructを提案する。検証可能な推論において、我々の合成データはs1kやOpenMathReasoningといった既存のトレーニングデータセットよりも大幅に優れています。検証不能な命令追従タスクに対しては、AlpacaEval 2.0とArena-Hardの両方で、人間または標準の自己指示プロンプトの性能を上回ります。
論文参考訳（メタデータ） (2025-07-31T17:38:50Z)
CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [56.17331530444765]
CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。 2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
論文参考訳（メタデータ） (2025-05-19T10:07:51Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文参考訳（メタデータ） (2025-04-29T04:42:02Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
IPSynth: Interprocedural Program Synthesis for Software Security Implementation [3.1119394814248253]
本稿では,提案手法の仕様を自動学習する新しい言語間プログラム合成手法であるIP Synthを紹介する。提案手法は,プログラム内の対応する箇所を正確に特定し,必要なコードスニペットを合成し,プログラムに追加し,ChatGPTをプログラム間の戦術的合成タスクで上回ることを示す。
論文参考訳（メタデータ） (2024-03-16T07:12:24Z)
Topological Guided Actor-Critic Modular Learning of Continuous Systems with Temporal Objectives [2.398608007786179]
本研究では,線形時間論理の高レベル仕様を与えられた連続状態力学系の公式なポリシー合成について検討する。ニューラルネットワークを用いて、ハイブリッド製品状態空間の値関数とポリシー関数を近似する。
論文参考訳（メタデータ） (2023-04-20T01:36:05Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
Learning Connectivity-Maximizing Network Configurations [123.01665966032014]
本稿では、専門家からコミュニケーションエージェントを配置することを学ぶ畳み込みニューラルネットワーク(CNN)を用いた教師あり学習手法を提案する。我々は,標準ライントポロジやリングトポロジ,ランダムに生成された105万件のテストケース,トレーニング中に見えない大規模なチームについて,CNNのパフォーマンスを実証した。トレーニング後,本システムは10～20名のエージェントの最適化手法よりも2桁高速な接続構成を生成する。
論文参考訳（メタデータ） (2021-12-14T18:59:01Z)
Network Support for High-performance Distributed Machine Learning [17.919773898228716]
学習ノード(計算を行う)と情報ノード(データを提供する)の両方をキャプチャするシステムモデルを提案する。次に,学習課題を完了させるために,学習ノードと情報ノードが協調して行うべき課題と,実行すべきイテレーション数を選択する問題を定式化する。我々はDoubleClimbというアルゴリズムを考案し、1+1/|I|競合解を見つけることができる。
論文参考訳（メタデータ） (2021-02-05T19:38:57Z)
Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文参考訳（メタデータ） (2020-10-01T15:59:31Z)
BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文参考訳（メタデータ） (2020-07-28T17:46:18Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)
Grammar Filtering For Syntax-Guided Synthesis [6.298766745228328]
PBE問題を解決するために,自動推論技術を用いて機械学習をタンデムで使用するシステムを提案する。ニューラルネットワークでSyGuS PBE問題を前処理することで、探索空間のサイズを減らすためにデータ駆動アプローチを使うことができる。我々のシステムは既存のSyGuS PBE合成ツール上で動作することができ、2019年のSyGuSコンペティションの勝者のランタイムを47.65%削減できる。
論文参考訳（メタデータ） (2020-02-07T16:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。