論文の概要: Learning Abstractions for Hierarchical Planning in Program-Synthesis Agents
- arxiv url: http://arxiv.org/abs/2602.00929v1
- Date: Sat, 31 Jan 2026 23:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.471242
- Title: Learning Abstractions for Hierarchical Planning in Program-Synthesis Agents
- Title(参考訳): プログラム合成エージェントにおける階層的プランニングのための抽象学習
- Authors: Zergham Ahmed, Kazuki Irie, Joshua B. Tenenbaum, Christopher J. Bates, Samuel J. Gershman,
- Abstract要約: 人間は抽象化を学び、それらを効率的に計画し、タスクをまたいで迅速に一般化する。
我々は,再利用可能な抽象化を積極的に学習する新しい大規模言語モデル (LLM) エージェントである TheoryCoder-2 を紹介する。
我々は,BabyAI,Minihack,SokobanのようなVGDLゲームなど,さまざまな環境で実験を行っている。
- 参考スコア(独自算出の注目度): 54.73952501784257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans learn abstractions and use them to plan efficiently to quickly generalize across tasks -- an ability that remains challenging for state-of-the-art large language model (LLM) agents and deep reinforcement learning (RL) systems. Inspired by the cognitive science of how people form abstractions and intuitive theories of their world knowledge, Theory-Based RL (TBRL) systems, such as TheoryCoder, exhibit strong generalization through effective use of abstractions. However, they heavily rely on human-provided abstractions and sidestep the abstraction-learning problem. We introduce TheoryCoder-2, a new TBRL agent that leverages LLMs' in-context learning ability to actively learn reusable abstractions rather than relying on hand-specified ones, by synthesizing abstractions from experience and integrating them into a hierarchical planning process. We conduct experiments on diverse environments, including BabyAI, Minihack and VGDL games like Sokoban. We find that TheoryCoder-2 is significantly more sample-efficient than baseline LLM agents augmented with classical planning domain construction, reasoning-based planning, and prior program-synthesis agents such as WorldCoder. TheoryCoder-2 is able to solve complex tasks that the baselines fail, while only requiring minimal human prompts, unlike prior TBRL systems.
- Abstract(参考訳): 人間は抽象化を学び、それらを効率的に計画してタスクを迅速に一般化する -- 最先端の大規模言語モデル(LLM)エージェントや深層強化学習(RL)システムでは依然として難しい能力である。
人々がどのように抽象を形成するかという認知科学や、世界知識の直感的な理論に触発された理論ベースRL(TBRL)システムは、抽象の効果的な利用を通じて強力な一般化を示す。
しかし、それらは人間が提供する抽象概念に大きく依存し、抽象学習問題を横取りしている。
経験から抽象化を合成し,階層的な計画プロセスに統合することにより,LLMのコンテキスト内学習能力を活用して,手作業による抽象化に頼るのではなく,再利用可能な抽象化を積極的に学習する,新たなTBRLエージェントであるThoryCoder-2を導入する。
我々は,BabyAI,Minihack,SokobanのようなVGDLゲームなど,さまざまな環境で実験を行っている。
TheoryCoder-2 は,従来の計画ドメイン構築,推論に基づく計画,WorldCoder などのプログラム合成エージェントを付加したベースライン LLM エージェントよりも,はるかに効率がよいことがわかった。
TheoryCoder-2は、従来のTBRLシステムとは異なり、最小限の人間プロンプトしか必要とせず、ベースラインが失敗する複雑なタスクを解くことができる。
関連論文リスト
- RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems [98.98963933669751]
問題が発生したら、複数の抽象化を提案できるモデルをトレーニングし、続いてソリューション構築のインセンティブを与えるRLを作ります。
この結果、RLトレーニングパラダイムはRLADと呼ばれ、抽象化ジェネレータとソリューションジェネレータを共同で訓練する。
我々は、大規模なテスト予算で多くのソリューションを生成するよりも、より多くのテスト時間計算を抽象化の生成に割り当てることが、パフォーマンスに有益であることを示しています。
論文 参考訳(メタデータ) (2025-10-02T17:44:23Z) - AR$^2$: Adversarial Reinforcement Learning for Abstract Reasoning in Large Language Models [12.484537674896908]
本稿では,大規模言語モデル (LLM) の抽象化能力を高めるために設計された新しいフレームワークである AR$2$ (Adversarial Reinforcement Learning for Abstract Reasoning) を提案する。
AR$2$は、基本ロジックを変更することなく、カーネル問題を物語に富んだ、挑戦的な記述に変換するために教師モデルを採用している。
学生符号化モデルは、基礎となる計算カーネルを抽出することにより、これらの複雑な物語問題を解決するために訓練される。
論文 参考訳(メタデータ) (2025-08-27T17:26:44Z) - Synthesizing world models for bilevel planning [46.21010194281677]
理論に基づく強化学習(TBRL)は、このギャップに対処するために設計されたアルゴリズムフレームワークである。
TBRLは理論の階層的表現と、より強力な学習と計画のための効率的なプログラム合成手法を利用する。
政策を直接合成する手法が不十分な多様かつ挑戦的なグリッドワールドゲームに対して,このアプローチがうまく適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-03-26T00:10:01Z) - From Real World to Logic and Back: Learning Generalizable Relational Concepts For Long Horizon Robot Planning [16.115874470700113]
本稿では,ロボットが少数の生・未分割・無注釈のデモから直接,記号的・関係的概念を創出することを可能にする方法を提案する。
我々のフレームワークは手動のシンボルモデルと同等のパフォーマンスを達成し、一方、トレーニングをはるかに超越した実行地平線へのスケーリングを実現している。
論文 参考訳(メタデータ) (2024-02-19T06:28:21Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - A Theory of Abstraction in Reinforcement Learning [18.976500531441346]
この論文では、強化学習における抽象論について述べる。
最初に、抽象化のプロセスを実行する関数に対して、3つのdesiderataを提供します。
次に、エージェントがこれらのデシダータに従って抽象化を学習する方法を明確にする、新しいアルゴリズムと分析のスイートを提示します。
論文 参考訳(メタデータ) (2022-03-01T12:46:28Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。