論文の概要: Adaptformer: Sequence models as adaptive iterative planners
- arxiv url: http://arxiv.org/abs/2412.00293v1
- Date: Sat, 30 Nov 2024 00:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:52.793412
- Title: Adaptformer: Sequence models as adaptive iterative planners
- Title(参考訳): Adaptformer: 適応的反復プランナーとしてのシーケンスモデル
- Authors: Akash Karthikeyan, Yash Vardhan Pant,
- Abstract要約: マルチタスクミッションにおける意思決定は、自律システムにとって難しい問題である。
本稿では、サンプル効率の高い探索と利用のためにシーケンスモデルを利用する適応型プランナであるAdaptformerを提案する。
マルチゴール迷路到達性タスクにおいて,Adaptformerは最先端の手法よりも25%高い性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Despite recent advances in learning-based behavioral planning for autonomous systems, decision-making in multi-task missions remains a challenging problem. For instance, a mission might require a robot to explore an unknown environment, locate the goals, and navigate to them, even if there are obstacles along the way. Such problems are difficult to solve due to: a) sparse rewards, meaning a reward signal is available only once all the tasks in a mission have been satisfied, and b) the agent having to perform tasks at run-time that are not covered in the training data, e.g., demonstrations only from an environment where all doors were unlocked. Consequently, state-of-the-art decision-making methods in such settings are limited to missions where the required tasks are well-represented in the training demonstrations and can be solved within a short planning horizon. To overcome these limitations, we propose Adaptformer, a stochastic and adaptive planner that utilizes sequence models for sample-efficient exploration and exploitation. This framework relies on learning an energy-based heuristic, which needs to be minimized over a sequence of high-level decisions. To generate successful action sequences for long-horizon missions, Adaptformer aims to achieve shorter sub-goals, which are proposed through an intrinsic sub-goal curriculum. Through these two key components, Adaptformer allows for generalization to out-of-distribution tasks and environments, i.e., missions that were not a part of the training data. Empirical results in multiple simulation environments demonstrate the effectiveness of our method. Notably, Adaptformer not only outperforms the state-of-the-art method by up to 25% in multi-goal maze reachability tasks but also successfully adapts to multi-task missions that the state-of-the-art method could not complete, leveraging demonstrations from single-goal-reaching tasks.
- Abstract(参考訳): 自律システムにおける学習に基づく行動計画の最近の進歩にもかかわらず、マルチタスクミッションにおける意思決定は難しい問題である。
例えば、ミッションでは、ロボットが未知の環境を探索し、目標を特定し、途中で障害物があってもナビゲートする必要があるかもしれません。
このような問題は、次のように解決するのが難しい。
a) 報酬の希薄化,すなわち,ミッションのすべてのタスクが満たされた場合にのみ,報酬信号が利用できること
b) 訓練データに含まれていない実行時に作業を行う必要があるエージェント、例えば、すべてのドアがアンロックされた環境からのみデモを行う。
したがって、このような状況下での最先端の意思決定方法は、必要なタスクが訓練のデモンストレーションで十分に表現され、短期的な計画の地平の中で解決できるミッションに限られる。
これらの制約を克服するために,サンプル効率の高い探索と評価にシーケンスモデルを利用する確率的適応型プランナであるAdaptformerを提案する。
このフレームワークはエネルギーベースのヒューリスティックを学ぶことに依存しており、これは高レベルの決定の順序で最小化する必要がある。
長距離ミッションのアクションシーケンスを成功させるために、Adaptformerは、本質的なサブゴールカリキュラムを通じて提案されるより短いサブゴールを達成することを目的としている。
これら2つの重要なコンポーネントを通じて、Adaptformerは、トレーニングデータの一部ではないミッションなど、配布外のタスクや環境への一般化を可能にする。
複数のシミュレーション環境における実験結果から,本手法の有効性が示された。
特に、Adaptformerは、マルチゴールの迷路到達性タスクにおいて、最先端の手法を最大25%向上させるだけでなく、ステート・オブ・ザ・アーツの手法が完成できないマルチタスクのミッションにも順応し、単一のゴール到達性タスクのデモンストレーションを活用する。
関連論文リスト
- Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。
我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-07-20T13:08:14Z) - Egocentric Planning for Scalable Embodied Task Achievement [6.870094263016224]
エゴセントリックプランニング(Egocentric Planning)は、複雑な環境におけるタスクを解決するために、シンボリックプランニングとオブジェクト指向のPOMDPを組み合わせた革新的なアプローチである。
国内タスク用に設計されたシミュレーション環境であるALFREDにおける我々のアプローチを評価し,そのスケーラビリティを実証した。
本手法では, エージェントの行動の前提条件と影響について, 信頼性の高い認識と記号的記述の特定, 学習が必要である。
論文 参考訳(メタデータ) (2023-06-02T06:41:24Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Wish you were here: Hindsight Goal Selection for long-horizon dexterous
manipulation [14.901636098553848]
スパース報酬をサンプル効率のよい方法で解くことは、現代の強化学習の課題である。
既存の戦略はタスク非依存のゴール分布に基づいて検討されており、これは長軸タスクの解を非現実的なものにすることができる。
実験を成功させた少数の事例によって示されるタスク固有の分布に沿った探索をガイドするために、後視リラベリング機構を拡張した。
論文 参考訳(メタデータ) (2021-12-01T16:12:32Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。