論文の概要: STAP: Sequencing Task-Agnostic Policies
- arxiv url: http://arxiv.org/abs/2210.12250v3
- Date: Wed, 31 May 2023 10:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 03:58:38.644416
- Title: STAP: Sequencing Task-Agnostic Policies
- Title(参考訳): STAP: Task-Agnostic Policiesのシーケンス
- Authors: Christopher Agia and Toki Migimatsu and Jiajun Wu and Jeannette Bohg
- Abstract要約: 本稿では,長期的課題を解決するために,操作スキルを訓練し,それらの幾何学的依存関係を計画時に調整するためのシークエンシングタスク非依存ポリシー(STAP)を提案する。
実験により, この目的関数が真理計画の実現可能性に近似していることが示唆された。
タスクプランナが提供したスキルシーケンスの幾何学的実現可能性を評価することで,STAPがタスク計画や動作計画にどのように使えるかを実証する。
- 参考スコア(独自算出の注目度): 22.25415946972336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in robotic skill acquisition have made it possible to build
general-purpose libraries of learned skills for downstream manipulation tasks.
However, naively executing these skills one after the other is unlikely to
succeed without accounting for dependencies between actions prevalent in
long-horizon plans. We present Sequencing Task-Agnostic Policies (STAP), a
scalable framework for training manipulation skills and coordinating their
geometric dependencies at planning time to solve long-horizon tasks never seen
by any skill during training. Given that Q-functions encode a measure of skill
feasibility, we formulate an optimization problem to maximize the joint success
of all skills sequenced in a plan, which we estimate by the product of their
Q-values. Our experiments indicate that this objective function approximates
ground truth plan feasibility and, when used as a planning objective, reduces
myopic behavior and thereby promotes long-horizon task success. We further
demonstrate how STAP can be used for task and motion planning by estimating the
geometric feasibility of skill sequences provided by a task planner. We
evaluate our approach in simulation and on a real robot. Qualitative results
and code are made available at https://sites.google.com/stanford.edu/stap.
- Abstract(参考訳): ロボットスキル獲得の進歩により、下流操作タスクのための学習スキルの汎用ライブラリの構築が可能になった。
しかし、これらのスキルを相次いで生かして実行することは、長期計画に共通する行動間の依存関係を考慮せずに成功する可能性は低い。
タスク非依存型ポリシ(stap)という,操作スキルのトレーニングと,その幾何学的依存関係を計画時にコーディネートするスケーラブルなフレームワークを提案する。
q-函数がスキル実現可能性の尺度をコードしていることを考えると、計画にシーケンスされたすべてのスキルの合同成功を最大化するために最適化問題を定式化する。
実験により,本目的関数は基本真理計画の実現可能性に近似し,計画目的として用いると筋活動が減少し,長期作業の成功が促進されることが示唆された。
さらに,タスクプランナが提供したスキルシーケンスの幾何学的実現可能性を評価することで,STAPをタスク計画や動作計画に利用できることを示す。
我々はシミュレーションと実際のロボットによるアプローチを評価する。
質的な結果とコードはhttps://sites.google.com/stanford.edu/stapで入手できる。
関連論文リスト
- Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - POMRL: No-Regret Learning-to-Plan with Increasing Horizons [43.693739167594295]
オンラインメタ強化学習環境におけるモデル不確実性の下での計画課題について検討する。
本稿では,タスク間の基盤構造をメタラーニングし,タスクごとの計画を立てるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-30T03:09:45Z) - Active Task Randomization: Learning Robust Skills via Unsupervised
Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。
ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。
本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文 参考訳(メタデータ) (2022-11-11T11:24:55Z) - Achieving mouse-level strategic evasion performance using real-time
computational planning [59.60094442546867]
計画とは、脳が想像し、予測可能な未来を成立させる特別な能力である。
我々は,動物の生態が空間計画の価値をどのように支配するかという研究に基づいて,より効率的な生物学的に着想を得た計画アルゴリズムであるTLPPOを開発した。
TLPPOを用いたリアルタイムエージェントの性能とライブマウスの性能を比較し,ロボット捕食者を避けることを課題とする。
論文 参考訳(メタデータ) (2022-11-04T18:34:36Z) - Learning Temporally Extended Skills in Continuous Domains as Symbolic
Actions for Planning [2.642698101441705]
長期計画と継続的な制御能力の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらす。
本稿では,環境の計画状態の象徴的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2022-07-11T17:13:10Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。