論文の概要: GenPlan: Generative sequence models as adaptive planners
- arxiv url: http://arxiv.org/abs/2412.08565v1
- Date: Wed, 11 Dec 2024 17:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:38.720049
- Title: GenPlan: Generative sequence models as adaptive planners
- Title(参考訳): GenPlan: 適応型プランナとしての生成シーケンスモデル
- Authors: Akash Karthikeyan, Yash Vardhan Pant,
- Abstract要約: マルチタスクのミッションにおける意思決定は依然として重大な課題を呈している。
エージェントは、報酬機能を通じて学んだ1つのタスク以上の適応に失敗します。
エージェントは、トレーニングデモでカバーされていない新しい環境に一般化できない。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Offline reinforcement learning has shown tremendous success in behavioral planning by learning from previously collected demonstrations. However, decision-making in multitask missions still presents significant challenges. For instance, a mission might require an agent to explore an unknown environment, discover goals, and navigate to them, even if it involves interacting with obstacles along the way. Such behavioral planning problems are difficult to solve due to: a) agents failing to adapt beyond the single task learned through their reward function, and b) the inability to generalize to new environments not covered in the training demonstrations, e.g., environments where all doors were unlocked in the demonstrations. Consequently, state-of-the-art decision making methods are limited to missions where the required tasks are well-represented in the training demonstrations and can be solved within a short (temporal) planning horizon. To address this, we propose GenPlan: a stochastic and adaptive planner that leverages discrete-flow models for generative sequence modeling, enabling sample-efficient exploration and exploitation. This framework relies on an iterative denoising procedure to generate a sequence of goals and actions. This approach captures multi-modal action distributions and facilitates goal and task discovery, thereby enhancing generalization to out-of-distribution tasks and environments, i.e., missions not part of the training data. We demonstrate the effectiveness of our method through multiple simulation environments. Notably, GenPlan outperforms the state-of-the-art methods by over 10% on adaptive planning tasks, where the agent adapts to multi-task missions while leveraging demonstrations on single-goal-reaching tasks.
- Abstract(参考訳): オフライン強化学習は、以前に収集した実演から学ぶことで行動計画に大きな成功を収めた。
しかし、マルチタスクのミッションにおける意思決定は依然として重大な課題を呈している。
例えば、ミッションでは、エージェントが未知の環境を探索し、目標を発見し、途中の障害物と対話する場合でも、それらに向かって移動する必要があるかもしれません。
このような行動計画問題の解決は困難である。
a) 報酬機能を通じて学んだ1つのタスクを超えて適応できないエージェント、及び
b) 訓練デモに含まれない新しい環境,例えば,すべてのドアがデモで解錠された環境に一般化できないこと。
したがって、最先端の意思決定方法は、必要なタスクが訓練のデモでうまく表現され、短期(一時的な)計画の地平の中で解決できるミッションに限られる。
そこで本研究では,離散フローモデルを利用した確率的適応型プランナGenPlanを提案する。
このフレームワークは、ゴールとアクションのシーケンスを生成するための反復的な記述手順に依存している。
このアプローチは、マルチモーダルな行動分布を捕捉し、目標とタスクの発見を促進することにより、トレーニングデータの一部ではないミッションや環境への一般化を促進する。
複数のシミュレーション環境を通して,本手法の有効性を実証する。
特に、GenPlanは、適応的な計画タスクにおいて10%以上の最先端の手法よりも優れており、エージェントはマルチタスクのミッションに適応し、シングルゴールリーチタスクのデモンストレーションを活用する。
関連論文リスト
- Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - Adaptformer: Sequence models as adaptive iterative planners [0.0]
マルチタスクミッションにおける意思決定は、自律システムにとって難しい問題である。
本稿では、サンプル効率の高い探索と利用のためにシーケンスモデルを利用する適応型プランナであるAdaptformerを提案する。
マルチゴール迷路到達性タスクにおいて,Adaptformerは最先端の手法よりも25%高い性能を示した。
論文 参考訳(メタデータ) (2024-11-30T00:34:41Z) - Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling [23.62433580021779]
我々は、均衡に達するまで計画案を反復的に洗練する自己精製スキームを提唱する。
効率的なクローズドループ計画のためのネスト型平衡系列モデリング手法を考案した。
提案手法はVirtualHome-Envベンチマークで評価され,性能が向上し,推論精度が向上した。
論文 参考訳(メタデータ) (2024-10-02T11:42:49Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [81.32722475387364]
大規模言語モデルに基づくエージェントが注目され、ますます人気が高まっている。
計画能力は LLM ベースのエージェントの重要な構成要素であり、通常は初期状態から望ましい目標を達成する必要がある。
近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Task and Motion Planning for Execution in the Real [24.01204729304763]
この作業は、作業を含むタスクと動作の計画を生成するが、計画時には完全には理解できない。
実行は、タスク目標に到達するまでオフラインで計画された動きとオンライン行動を組み合わせる。
提案したフレームワークを評価するために,40の実ロボット試験とモチベーション実証を行った。
その結果、実行時間が短縮され、アクションの数が少なくなり、さまざまなギャップが生じる問題の成功率が向上した。
論文 参考訳(メタデータ) (2024-06-05T22:30:40Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - POMRL: No-Regret Learning-to-Plan with Increasing Horizons [43.693739167594295]
オンラインメタ強化学習環境におけるモデル不確実性の下での計画課題について検討する。
本稿では,タスク間の基盤構造をメタラーニングし,タスクごとの計画を立てるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-30T03:09:45Z) - Adaptive Procedural Task Generation for Hard-Exploration Problems [78.20918366839399]
ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。
私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。
学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
論文 参考訳(メタデータ) (2020-07-01T09:38:51Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。