論文の概要: Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search
- arxiv url: http://arxiv.org/abs/2405.16450v1
- Date: Sun, 26 May 2024 06:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 21:08:36.746592
- Title: Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search
- Title(参考訳): 大規模言語モデルガイド検索によるプログラム強化学習ポリシーの合成
- Authors: Max Liu, Chan-Hung Yu, Wei-Hsu Lee, Cheng-Wei Hung, Yen-Chun Chen, Shao-Hua Sun,
- Abstract要約: LLM誘導検索フレームワーク(LLM-GS)について紹介する。
我々の重要な洞察は、LLMのプログラミングの専門知識と常識推論を活用して、仮定不要でランダムな探索手法の効率を高めることである。
本研究では,プログラム検索空間を効率的に探索し,一貫したプログラム改善を実現するための探索アルゴリズムであるSchduled Hill Climbingを開発した。
- 参考スコア(独自算出の注目度): 7.769411917500852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Programmatic reinforcement learning (PRL) has been explored for representing policies through programs as a means to achieve interpretability and generalization. Despite promising outcomes, current state-of-the-art PRL methods are hindered by sample inefficiency, necessitating tens of millions of program-environment interactions. To tackle this challenge, we introduce a novel LLM-guided search framework (LLM-GS). Our key insight is to leverage the programming expertise and common sense reasoning of LLMs to enhance the efficiency of assumption-free, random-guessing search methods. We address the challenge of LLMs' inability to generate precise and grammatically correct programs in domain-specific languages (DSLs) by proposing a Pythonic-DSL strategy - an LLM is instructed to initially generate Python codes and then convert them into DSL programs. To further optimize the LLM-generated programs, we develop a search algorithm named Scheduled Hill Climbing, designed to efficiently explore the programmatic search space to consistently improve the programs. Experimental results in the Karel domain demonstrate the superior effectiveness and efficiency of our LLM-GS framework. Extensive ablation studies further verify the critical role of our Pythonic-DSL strategy and Scheduled Hill Climbing algorithm.
- Abstract(参考訳): プログラム強化学習(PRL)は、解釈可能性と一般化を達成する手段として、プログラムを通してポリシーを表現するために研究されている。
有望な結果にもかかわらず、現在の最先端のPRL手法はサンプルの不効率によって妨げられ、数千万のプログラム環境相互作用を必要とする。
この課題に対処するために,新しいLLM誘導検索フレームワーク(LLM-GS)を導入する。
我々の重要な洞察は、LLMのプログラミングの専門知識と常識推論を活用して、仮定不要でランダムな探索手法の効率を高めることである。
LLMがPython-DSL戦略を提案し、ドメイン固有言語(DSL)で正確で文法的に正しいプログラムを生成することができないという課題に対処する。
LLM生成プログラムをさらに最適化するために,プログラム探索空間を効率よく探索し,一貫したプログラム改善を図ったSchduled Hill Climbingという検索アルゴリズムを開発した。
実験結果から, LLM-GS フレームワークの有効性と有効性を示した。
大規模なアブレーション研究により、Pythonic-DSL戦略とスケジューリングヒルクライミングアルゴリズムの重要な役割がさらに検証される。
関連論文リスト
- LLM Program Optimization via Retrieval Augmented Search [71.40092732256252]
提案手法は,提案手法によって最適化されたビーム探索を行う検索アルゴリズムであるRetrieval Augmented Search (RAS) である。
我々は、RASが従来の最先端のブラックボックス適応戦略よりも1.8$times$パフォーマンスが高いことを示す。
また、トレーニング例を「アトミックな編集」に分解することで、解釈可能性を向上させるAEGISと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2025-01-31T06:34:47Z) - Large Language Models as Common-Sense Heuristics [0.9093413254392775]
大規模言語モデル(LLM)は、幅広いトピックにまたがるパラメトリドな知識を持ち、彼らのソリューションにおける計画タスクの自然言語記述を活用できる。
本研究では,LLMのパラメトリド知識をヒルクライミングサーチの出力として利用することにより,新たな計画手法を提案する。
提案手法は,共通住宅環境における類似システムのタスク成功率を22ポイント向上させ,一貫した計画を立てる。
論文 参考訳(メタデータ) (2025-01-31T00:26:38Z) - ConceptSearch: Towards Efficient Program Search Using LLMs for Abstraction and Reasoning Corpus (ARC) [5.333409383920058]
ConceptSearchは、コンセプトベースのスコアリングを使用して、検索を効率的にガイドする新しい関数検索アルゴリズムである。
実験結果はConceptSearchの有効性を示し、直接プロンプトよりも大幅なパフォーマンス向上を実現している。
これらの知見は、概念に基づくガイダンスと統合されたLLMによるプログラム探索の可能性を強調した。
論文 参考訳(メタデータ) (2024-12-10T09:10:11Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。