論文の概要: $\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program
Synthesis
- arxiv url: http://arxiv.org/abs/2310.03173v1
- Date: Wed, 4 Oct 2023 21:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:08:29.675634
- Title: $\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program
Synthesis
- Title(参考訳): $\mathcal{B}$-Coder:プログラム合成のための価値に基づく深層強化学習
- Authors: Zishun Yu, Yunzhe Tao, Liyu Chen, Tao Sun, Hongxia Yang
- Abstract要約: プログラム合成は、自然言語記述から正確で実行可能なコードを作成することを目的としている。
我々の研究は価値ベースのアプローチの適用性を探究し、$mathcalB$-Coderの開発につながります。
我々は、学習した価値関数を、生成したプログラムを後処理する双対戦略として活用する方法を実証する。
- 参考スコア(独自算出の注目度): 42.637854890202036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Program synthesis aims to create accurate, executable code from natural
language descriptions. This field has leveraged the power of reinforcement
learning (RL) in conjunction with large language models (LLMs), significantly
enhancing code generation capabilities. This integration focuses on directly
optimizing functional correctness, transcending conventional supervised losses.
While current literature predominantly favors policy-based algorithms,
attributes of program synthesis suggest a natural compatibility with
value-based methods. This stems from rich collection of off-policy programs
developed by human programmers, and the straightforward verification of
generated programs through automated unit testing (i.e. easily obtainable
rewards in RL language). Diverging from the predominant use of policy-based
algorithms, our work explores the applicability of value-based approaches,
leading to the development of our $\mathcal{B}$-Coder (pronounced Bellman
coder). Yet, training value-based methods presents challenges due to the
enormous search space inherent to program synthesis. To this end, we propose an
initialization protocol for RL agents utilizing pre-trained LMs and a
conservative Bellman operator to reduce training complexities. Moreover, we
demonstrate how to leverage the learned value functions as a dual strategy to
post-process generated programs. Our empirical evaluations demonstrated
$\mathcal{B}$-Coder's capability in achieving state-of-the-art performance
compared with policy-based methods. Remarkably, this achievement is reached
with minimal reward engineering effort, highlighting the effectiveness of
value-based RL, independent of reward designs.
- Abstract(参考訳): プログラム合成は、自然言語記述から正確な実行可能なコードを作成することを目的としている。
この分野は、大規模言語モデル(LLM)とともに強化学習(RL)の力を活用し、コード生成能力を大幅に向上させた。
この統合は機能的正しさを直接最適化することに焦点を当て、従来の監督された損失を超越する。
現在の文献はポリシーに基づくアルゴリズムを主に好んでいるが、プログラム合成の属性は値ベースの手法との自然な互換性を示唆している。
これは、人間のプログラマが開発するオフポリシープログラムの豊富なコレクションと、自動ユニットテスト(rl言語で簡単に得られる報酬)による生成プログラムの直接的な検証に由来する。
ポリシーベースのアルゴリズムの主な使用から切り離され、我々は価値ベースのアプローチの適用可能性を探究し、$\mathcal{B}$-Coder(ベルマン・コーダと発音する)の開発に繋がる。
しかし,プログラム合成に固有の膨大な検索空間のために,価値に基づく学習手法が課題となる。
そこで本研究では,事前学習されたLMと保守的なベルマン演算子を用いたRLエージェントの初期化プロトコルを提案する。
さらに,学習価値関数をプロセス後生成プログラムの二重戦略として活用する方法を示す。
私たちの経験的評価は、ポリシーベースのメソッドと比較して、最先端のパフォーマンスを達成するための$\mathcal{b}$-coderの能力を示しました。
注目すべきことに、この成果は最小限の報酬工学努力で達成され、報酬設計とは無関係に価値に基づくRLの有効性を強調している。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Decomposing Control Lyapunov Functions for Efficient Reinforcement Learning [10.117626902557927]
現在の強化学習(RL)手法では、特定のタスクを学習するために大量のデータを必要とするため、エージェントをデプロイして実世界のアプリケーションにデータを収集する場合、不合理なコストが発生する。
本稿では,RL の報酬関数を補うために,CLF (Control Lyapunov Function) を導入して,サンプルの複雑さを低減した既存の作業から構築する。
提案手法は,最先端のソフト・アクター・クリティカル・アルゴリズムが必要とする実世界のデータの半分以下でクワッドコプターを着陸させることが可能であることを示す。
論文 参考訳(メタデータ) (2024-03-18T19:51:17Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T17:13:16Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。