論文の概要: Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2405.15383v2
- Date: Wed, 30 Oct 2024 14:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:23:12.014548
- Title: Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search
- Title(参考訳): モンテカルロ木探索による大規模言語モデルによるコードワールドモデルの生成
- Authors: Nicola Dainese, Matteo Merler, Minttu Alakuijala, Pekka Marttinen,
- Abstract要約: 我々は,大規模言語モデル(LLM)が生成する世界モデルであるコードワールドモデルを,モデルベース強化学習(RL)のためのPythonコード形式として検討する。
LLMの代わりにコードを呼び出すことは、より正確で、信頼性があり、解釈可能で、非常に効率的である可能性がある。
その結果, モデルベースRLエージェントは, サンプル効率と推論速度を大幅に向上させることができた。
- 参考スコア(独自算出の注目度): 5.913758275518443
- License:
- Abstract: In this work we consider Code World Models, world models generated by a Large Language Model (LLM) in the form of Python code for model-based Reinforcement Learning (RL). Calling code instead of LLMs for planning has potential to be more precise, reliable, interpretable, and extremely efficient. However, writing appropriate Code World Models requires the ability to understand complex instructions, to generate exact code with non-trivial logic and to self-debug a long program with feedback from unit tests and environment trajectories. To address these challenges, we propose Generate, Improve and Fix with Monte Carlo Tree Search (GIF-MCTS), a new code generation strategy for LLMs. To test our approach in an offline RL setting, we introduce the Code World Models Benchmark (CWMB), a suite of program synthesis and planning tasks comprised of 18 diverse RL environments paired with corresponding textual descriptions and curated trajectories. GIF-MCTS surpasses all baselines on the CWMB and two other benchmarks, and we show that the Code World Models synthesized with it can be successfully used for planning, resulting in model-based RL agents with greatly improved sample efficiency and inference speed.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)が生成する世界モデルであるコードワールドモデルを,モデルベース強化学習(RL)のためのPythonコード形式で考察する。
LLMの代わりにコードを呼び出すことは、より正確で、信頼性があり、解釈可能で、非常に効率的である可能性がある。
しかし、適切なコードワールドモデルを書くには、複雑な命令を理解し、非自明なロジックで正確なコードを生成し、ユニットテストや環境トラジェクトリからのフィードバックで長いプログラムを自己デバッグする能力が必要です。
これらの課題に対処するため,LLMの新しいコード生成戦略であるGenerate, Improve and Fix with Monte Carlo Tree Search (GIF-MCTS)を提案する。
オフラインのRL環境でのアプローチをテストするために,プログラム合成と計画タスクのスイートであるCode World Models Benchmark(CWMB)を紹介した。
GIF-MCTS は CWMB と他の2つのベンチマークのベースラインを超越し,それで合成した Code World Models が計画にうまく利用でき,その結果,サンプル効率と推論速度を大幅に向上したモデルベース RL エージェントが得られた。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論、タスク、エージェントシステムなど、さまざまな領域で必須になっている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの'オープンクックブック'として機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [91.15135237584771]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - What Makes Large Language Models Reason in (Multi-Turn) Code Generation? [28.614888506962988]
思考の連鎖は、大規模言語モデル(LLM)の出力を改善するための一般的な手段として確立されている。
本稿では,複数回にまたがる自動再プロンプトに焦点をあてて,幅広いプロンプト戦略の効果について検討する。
本研究は, 小型かつ大規模なサンプリング予算を持つ全モデルにおいて, 継続的に性能を向上させる戦略を明らかにする。
論文 参考訳(メタデータ) (2024-10-10T16:53:10Z) - Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。
TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文 参考訳(メタデータ) (2024-06-19T23:47:59Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T17:13:16Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。
CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文 参考訳(メタデータ) (2023-10-13T10:17:48Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。