論文の概要: A-LAMP: Agentic LLM-Based Framework for Automated MDP Modeling and Policy Generation
- arxiv url: http://arxiv.org/abs/2512.11270v1
- Date: Fri, 12 Dec 2025 04:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.651663
- Title: A-LAMP: Agentic LLM-Based Framework for Automated MDP Modeling and Policy Generation
- Title(参考訳): A-LAMP:自動MDPモデリングとポリシー生成のためのエージェントLLMベースのフレームワーク
- Authors: Hong Je-Gal, Chan-Bin Yi, Hyun-Suk Lee,
- Abstract要約: 自動MDPモデリングとポリシー生成のためのエージェント型大規模言語モデル(LLM)ベースのフレームワークを提案する。
A-LAMPは、自由形式の自然言語タスク記述をMDPの定式化と訓練されたポリシーに変換する。
A-LAMPは、単一の最先端モデルよりも高いポリシー生成能力を一貫して達成する。
- 参考スコア(独自算出の注目度): 2.5705703401045548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying reinforcement learning (RL) to real-world tasks requires converting informal descriptions into a formal Markov decision process (MDP), implementing an executable environment, and training a policy agent. Automating this process is challenging due to modeling errors, fragile code, and misaligned objectives, which often impede policy training. We introduce an agentic large language model (LLM)-based framework for automated MDP modeling and policy generation (A-LAMP), that automatically translates free-form natural language task descriptions into an MDP formulation and trained policy. The framework decomposes modeling, coding, and training into verifiable stages, ensuring semantic alignment throughout the pipeline. Across both classic control and custom RL domains, A-LAMP consistently achieves higher policy generation capability than a single state-of-the-art LLM model. Notably, even its lightweight variant, which is built on smaller language models, approaches the performance of much larger models. Failure analysis reveals why these improvements occur. In addition, a case study also demonstrates that A-LAMP generates environments and policies that preserve the task's optimality, confirming its correctness and reliability.
- Abstract(参考訳): 実世界のタスクに強化学習(RL)を適用するには、非公式な記述を正式なマルコフ決定プロセス(MDP)に変換し、実行可能な環境を実装し、政策エージェントを訓練する必要がある。
このプロセスの自動化は、エラーのモデリング、脆弱なコード、不整合な目的のために困難であり、しばしば政策トレーニングを妨げます。
エージェント型大規模言語モデル(LLM)に基づく自動MDPモデリングとポリシー生成(A-LAMP)フレームワークを導入し、自由形式の自然言語タスク記述をMDPの定式化と訓練されたポリシーに自動的に翻訳する。
このフレームワークは、モデリング、コーディング、トレーニングを検証可能なステージに分解し、パイプライン全体のセマンティックアライメントを保証する。
古典的な制御領域とカスタムRLドメインの両方で、A-LAMPは単一の最先端LLMモデルよりも高いポリシー生成能力を一貫して達成している。
特に、より小さな言語モデル上に構築された軽量版でさえ、はるかに大きなモデルの性能にアプローチしている。
失敗分析は、これらの改善がなぜ起こるかを明らかにします。
さらに、ケーススタディでは、A-LAMPがタスクの最適性を維持し、その正確性と信頼性を確認する環境とポリシーを生成することも示している。
関連論文リスト
- Automated Generation of MDPs Using Logic Programming and LLMs for Robotic Applications [12.212215896242911]
本稿では,Large Language Models(LLM)と自動計画と形式検証を統合した新しいフレームワークを提案する。
このフレームワークを3つの人間とロボットのインタラクションシナリオで検証し、最小限の手作業で実行可能なポリシーを作成できることを実証する。
論文 参考訳(メタデータ) (2025-11-28T12:48:30Z) - A Fuzzy Logic Prompting Framework for Large Language Models in Adaptive and Uncertain Tasks [2.1756081703276]
動的でユーザ中心のタスクにまたがる大規模言語モデル(LLM)のより安全で適応的な利用をサポートするモジュール型プロンプトフレームワークを導入する。
本手法は,ファジィな足場論理と適応規則を符号化した制御スキーマと,自然言語境界プロンプトを組み合わせる。
シミュレーションされたインテリジェントなチューター設定では、このフレームワークは、複数のモデル間の足場品質、適応性、命令的アライメントを改善し、標準のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-08-08T23:50:48Z) - Improving Controller Generalization with Dimensionless Markov Decision Processes [6.047438841182958]
本研究では,世界モデルと政策の両方が無次元の状態行動空間で訓練されるような一般化を促進するためのモデルベースアプローチを提案する。
本研究では, 単一環境下で訓練されたポリシーが, コンテキスト分布の変化に対して堅牢であるような, 動作型振り子とカルポールシステムに対する本手法の適用性を実証する。
論文 参考訳(メタデータ) (2025-04-14T09:08:53Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model [2.9109581496560044]
特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。
我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。
実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:37:08Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。