論文の概要: Code-Driven Planning in Grid Worlds with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.10749v1
- Date: Thu, 15 May 2025 23:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.769801
- Title: Code-Driven Planning in Grid Worlds with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたグリッド世界のコード駆動計画
- Authors: Ashwath Vaithinathan Aravindan, Zhisheng Tang, Mayank Kejriwal,
- Abstract要約: コードで表現された解釈可能なエージェントポリシーを合成することにより,グリッドベースのタスクを解決するための反復的プログラム計画フレームワークを提案する。
従来の検索や強化学習に頼るのではなく、コード生成をポリシー合成として使用しています。
- 参考スコア(独自算出の注目度): 2.6080756513915824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an iterative programmatic planning (IPP) framework for solving grid-based tasks by synthesizing interpretable agent policies expressed in code using large language models (LLMs). Instead of relying on traditional search or reinforcement learning, our approach uses code generation as policy synthesis, where the LLM outputs executable programs that map environment states to action sequences. Our proposed architecture incorporates several prompting strategies, including direct code generation, pseudocode-conditioned refinement, and curriculum-based prompting, but also includes an iterative refinement mechanism that updates code based on task performance feedback. We evaluate our approach using six leading LLMs and two challenging grid-based benchmarks (GRASP and MiniGrid). Our IPP framework demonstrates improvements over direct code generation ranging from 10\% to as much as 10x across five of the six models and establishes a new state-of-the-art result for GRASP. IPP is found to significantly outperform direct elicitation of a solution from GPT-o3-mini (by 63\% on MiniGrid to 116\% on GRASP), demonstrating the viability of the overall approach. Computational costs of all code generation approaches are similar. While code generation has a higher initial prompting cost compared to direct solution elicitation (\$0.08 per task vs. \$0.002 per instance for GPT-o3-mini), the code can be reused for any number of instances, making the amortized cost significantly lower (by 400x on GPT-o3-mini across the complete GRASP benchmark).
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を用いてコードで表現された解釈可能なエージェントポリシーを合成することにより,グリッドベースのタスクを解決するための反復型プログラム計画(IPP)フレームワークを提案する。
従来の検索や強化学習に頼る代わりに,LLMは環境状態をアクションシーケンスにマッピングする実行可能なプログラムを出力し,コード生成をポリシー合成として利用する。
提案アーキテクチャには,直接コード生成や擬似コード条件の修正,カリキュラムベースのプロンプトなど,いくつかのプロンプト戦略が組み込まれている。
我々は6つの主要なLCMと2つのグリッドベースのベンチマーク(GRASPとMiniGrid)を用いてアプローチを評価した。
我々のIPPフレームワークは、6つのモデルのうち5つのモデルで10\%から10倍までのコード生成の改善を示し、GRASPの新たな最先端結果を確立します。
IPP は GPT-o3-mini (MiniGrid では 63 % から GRASP では 116 % まで) の溶液の直接溶出率を著しく上回り, 全体的アプローチの可能性を示した。
すべてのコード生成アプローチの計算コストも同様である。
GPT-o3-miniのインスタンスあたり0.08ドル、GPT-o3-miniのインスタンスあたり0.002ドル)に比べて、コード生成は初期化コストが高いが、コードは任意のインスタンスに対して再利用可能であるため、償却コストはGRASPベンチマーク全体の400倍)。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Modularization is Better: Effective Code Generation with Modular Prompting [9.955541341324007]
本稿では,大規模言語モデルのコード生成性能を向上させるため,MoTと呼ばれる新しいプロンプト手法を提案する。
MoTはモジュール化の原則を利用して、複雑なプログラミング問題をより小さく独立した推論ステップに分解する。
MLRグラフを使用して推論プロセスを構築し、階層的に推論ステップを編成する。
論文 参考訳(メタデータ) (2025-03-16T12:23:23Z) - Unveiling the Potential of Multimodal Retrieval Augmented Generation with Planning [5.205803766626321]
MRAG (Multimodal Retrieval Augmented Generation) システムは、しばしば厳密な単一ステップの検索手法に依存している。
人間の認知プロセスにインスパイアされた汎用的なフレームワークであるCagPlannerを紹介します。
CogPlannerはクエリを反復的に洗練し、検索戦略を選択し、並列およびシーケンシャルなモデリングアプローチを可能にする。
論文 参考訳(メタデータ) (2025-01-26T10:16:42Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - Chain-of-Programming (CoP) : Empowering Large Language Models for Geospatial Code Generation [2.6026969939746705]
本稿では,コード生成プロセスを5段階に分解するプログラミングフレームワークを提案する。
このフレームワークには、共有情報プール、知識ベース検索、ユーザフィードバック機構が含まれている。
生成されたコードの論理的明確性、構文的正確性、実行可能性を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-16T09:20:35Z) - GRASP: A Grid-Based Benchmark for Evaluating Commonsense Spatial Reasoning [2.9312156642007294]
我々は,エージェントがエネルギー収集問題に対処する16,000のグリッドベースの環境からなるGRASPという大規模ベンチマークを構築した。
GPT-3.5-Turbo, GPT-4o, GPT-o1-miniといった先進的なLCMと比較した。
実験結果から, 高度なLCMでさえ, 常に満足な解を得るのに苦労していることが示唆された。
論文 参考訳(メタデータ) (2024-07-02T02:27:46Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。
CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文 参考訳(メタデータ) (2023-10-13T10:17:48Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。