Fugu-MT 論文翻訳(概要): Reinforcement Learning and Data-Generation for Syntax-Guided Synthesis

論文の概要: Reinforcement Learning and Data-Generation for Syntax-Guided Synthesis

arxiv url: http://arxiv.org/abs/2307.09564v2
Date: Fri, 5 Jan 2024 13:07:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-08 18:14:54.642945
Title: Reinforcement Learning and Data-Generation for Syntax-Guided Synthesis
Title（参考訳）: 構文誘導合成のための強化学習とデータ生成
Authors: Julian Parsert and Elizabeth Polgreen
Abstract要約: 我々はモンテカルロ木探索(MCTS)を用いて候補解の空間を探索するSyGuSの強化学習アルゴリズムを提案する。我々のアルゴリズムは,木に縛られた高信頼度と組み合わさって,探索と利用のバランスをとるためのポリシーと価値関数を学習する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Program synthesis is the task of automatically generating code based on a specification. In Syntax-Guided Synthesis (SyGuS) this specification is a combination of a syntactic template and a logical formula, and the result is guaranteed to satisfy both. We present a reinforcement-learning guided algorithm for SyGuS which uses Monte-Carlo Tree Search (MCTS) to search the space of candidate solutions. Our algorithm learns policy and value functions which, combined with the upper confidence bound for trees, allow it to balance exploration and exploitation. A common challenge in applying machine learning approaches to syntax-guided synthesis is the scarcity of training data. To address this, we present a method for automatically generating training data for SyGuS based on anti-unification of existing first-order satisfiability problems, which we use to train our MCTS policy. We implement and evaluate this setup and demonstrate that learned policy and value improve the synthesis performance over a baseline by over 26 percentage points in the training and testing sets. Our tool outperforms state-of-the-art tool cvc5 on the training set and performs comparably in terms of the total number of problems solved on the testing set (solving 23% of the benchmarks on which cvc5 fails). We make our data set publicly available, to enable further application of machine learning methods to the SyGuS problem.
Abstract（参考訳）: プログラム合成は、仕様に基づいてコードを自動的に生成するタスクである。 Syntax-Guided Synthesis (SyGuS)では、この仕様は構文テンプレートと論理式の組み合わせであり、その両方を満たすことが保証されている。本稿では,モンテカルロ木探索(MCTS)を用いて候補解の空間を探索するSyGuSの強化学習指導アルゴリズムを提案する。我々のアルゴリズムは,木に縛られた高信頼度と組み合わさって,探索と利用のバランスをとるためのポリシーと価値関数を学習する。構文誘導合成に機械学習アプローチを適用する際の一般的な課題は、トレーニングデータの不足である。そこで本稿では,既存の1次満足度問題に対するアンチ統一に基づいて,SyGuSのトレーニングデータを自動的に生成する手法を提案する。この設定を実装して評価し、学習方針と価値がベースライン上での合成性能をトレーニングおよびテストセットにおいて26ポイント以上向上することを示す。このツールは,テストセット上で解決した問題の総数(cvc5が失敗するベンチマークの23%)の観点から比較して,最先端のツールであるcvc5よりも優れています。当社のデータセットを一般公開し、シグス問題に対する機械学習手法のさらなる適用を可能にします。

関連論文リスト

CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks [57.482238100217195]
合成データ生成手法CoT-Self-Instructを提案する。検証可能な推論において、我々の合成データはs1kやOpenMathReasoningといった既存のトレーニングデータセットよりも大幅に優れています。検証不能な命令追従タスクに対しては、AlpacaEval 2.0とArena-Hardの両方で、人間または標準の自己指示プロンプトの性能を上回ります。
論文参考訳（メタデータ） (2025-07-31T17:38:50Z)
CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [56.17331530444765]
CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。 2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
論文参考訳（メタデータ） (2025-05-19T10:07:51Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文参考訳（メタデータ） (2025-04-29T04:42:02Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
IPSynth: Interprocedural Program Synthesis for Software Security Implementation [3.1119394814248253]
本稿では,提案手法の仕様を自動学習する新しい言語間プログラム合成手法であるIP Synthを紹介する。提案手法は,プログラム内の対応する箇所を正確に特定し,必要なコードスニペットを合成し,プログラムに追加し,ChatGPTをプログラム間の戦術的合成タスクで上回ることを示す。
論文参考訳（メタデータ） (2024-03-16T07:12:24Z)
Topological Guided Actor-Critic Modular Learning of Continuous Systems with Temporal Objectives [2.398608007786179]
本研究では,線形時間論理の高レベル仕様を与えられた連続状態力学系の公式なポリシー合成について検討する。ニューラルネットワークを用いて、ハイブリッド製品状態空間の値関数とポリシー関数を近似する。
論文参考訳（メタデータ） (2023-04-20T01:36:05Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
Learning Connectivity-Maximizing Network Configurations [123.01665966032014]
本稿では、専門家からコミュニケーションエージェントを配置することを学ぶ畳み込みニューラルネットワーク(CNN)を用いた教師あり学習手法を提案する。我々は,標準ライントポロジやリングトポロジ,ランダムに生成された105万件のテストケース,トレーニング中に見えない大規模なチームについて,CNNのパフォーマンスを実証した。トレーニング後,本システムは10～20名のエージェントの最適化手法よりも2桁高速な接続構成を生成する。
論文参考訳（メタデータ） (2021-12-14T18:59:01Z)
Network Support for High-performance Distributed Machine Learning [17.919773898228716]
学習ノード(計算を行う)と情報ノード(データを提供する)の両方をキャプチャするシステムモデルを提案する。次に,学習課題を完了させるために,学習ノードと情報ノードが協調して行うべき課題と,実行すべきイテレーション数を選択する問題を定式化する。我々はDoubleClimbというアルゴリズムを考案し、1+1/|I|競合解を見つけることができる。
論文参考訳（メタデータ） (2021-02-05T19:38:57Z)
Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文参考訳（メタデータ） (2020-10-01T15:59:31Z)
BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文参考訳（メタデータ） (2020-07-28T17:46:18Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)
Grammar Filtering For Syntax-Guided Synthesis [6.298766745228328]
PBE問題を解決するために,自動推論技術を用いて機械学習をタンデムで使用するシステムを提案する。ニューラルネットワークでSyGuS PBE問題を前処理することで、探索空間のサイズを減らすためにデータ駆動アプローチを使うことができる。我々のシステムは既存のSyGuS PBE合成ツール上で動作することができ、2019年のSyGuSコンペティションの勝者のランタイムを47.65%削減できる。
論文参考訳（メタデータ） (2020-02-07T16:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。