Fugu-MT 論文翻訳(概要): STAP: Sequencing Task-Agnostic Policies

論文の概要: STAP: Sequencing Task-Agnostic Policies

arxiv url: http://arxiv.org/abs/2210.12250v3
Date: Wed, 31 May 2023 10:53:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 03:58:38.644416
Title: STAP: Sequencing Task-Agnostic Policies
Title（参考訳）: STAP: Task-Agnostic Policiesのシーケンス
Authors: Christopher Agia and Toki Migimatsu and Jiajun Wu and Jeannette Bohg
Abstract要約: 本稿では,長期的課題を解決するために,操作スキルを訓練し,それらの幾何学的依存関係を計画時に調整するためのシークエンシングタスク非依存ポリシー(STAP)を提案する。実験により, この目的関数が真理計画の実現可能性に近似していることが示唆された。タスクプランナが提供したスキルシーケンスの幾何学的実現可能性を評価することで,STAPがタスク計画や動作計画にどのように使えるかを実証する。
参考スコア（独自算出の注目度）: 22.25415946972336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advances in robotic skill acquisition have made it possible to build general-purpose libraries of learned skills for downstream manipulation tasks. However, naively executing these skills one after the other is unlikely to succeed without accounting for dependencies between actions prevalent in long-horizon plans. We present Sequencing Task-Agnostic Policies (STAP), a scalable framework for training manipulation skills and coordinating their geometric dependencies at planning time to solve long-horizon tasks never seen by any skill during training. Given that Q-functions encode a measure of skill feasibility, we formulate an optimization problem to maximize the joint success of all skills sequenced in a plan, which we estimate by the product of their Q-values. Our experiments indicate that this objective function approximates ground truth plan feasibility and, when used as a planning objective, reduces myopic behavior and thereby promotes long-horizon task success. We further demonstrate how STAP can be used for task and motion planning by estimating the geometric feasibility of skill sequences provided by a task planner. We evaluate our approach in simulation and on a real robot. Qualitative results and code are made available at https://sites.google.com/stanford.edu/stap.
Abstract（参考訳）: ロボットスキル獲得の進歩により、下流操作タスクのための学習スキルの汎用ライブラリの構築が可能になった。しかし、これらのスキルを相次いで生かして実行することは、長期計画に共通する行動間の依存関係を考慮せずに成功する可能性は低い。タスク非依存型ポリシ(stap)という,操作スキルのトレーニングと,その幾何学的依存関係を計画時にコーディネートするスケーラブルなフレームワークを提案する。 q-函数がスキル実現可能性の尺度をコードしていることを考えると、計画にシーケンスされたすべてのスキルの合同成功を最大化するために最適化問題を定式化する。実験により,本目的関数は基本真理計画の実現可能性に近似し,計画目的として用いると筋活動が減少し,長期作業の成功が促進されることが示唆された。さらに,タスクプランナが提供したスキルシーケンスの幾何学的実現可能性を評価することで,STAPをタスク計画や動作計画に利用できることを示す。我々はシミュレーションと実際のロボットによるアプローチを評価する。質的な結果とコードはhttps://sites.google.com/stanford.edu/stapで入手できる。

関連論文リスト

Causally Aligned Curriculum Learning [69.11672390876763]
本稿では、因果レンズによるカリキュラムRLの問題について検討する。因果的に整合したソースタスクを特徴付ける十分なグラフィカルな条件を導出する。因果整合型カリキュラムを生成するための効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-03-21T02:20:38Z)
Adaptive Bi-Level Multi-Robot Task Allocation and Learning under Uncertainty with Temporal Logic Constraints [5.329682333337303]
この研究は、未知のロボット遷移モデルの下でのマルチロボット協調の問題に対処する。本稿では,ハイレベルなタスクアロケーションと低レベルな分散ポリシ学習と実行を統合した双方向フレームワークを提案する。提案アルゴリズムを理論的に検証し,課題割り当てが所望の確率閾値を高い信頼性で満たすことを示す。
論文参考訳（メタデータ） (2025-02-14T10:39:21Z)
Anticipate & Act : Integrating LLMs and Classical Planning for Efficient Task Execution in Household Environments [16.482992646001996]
我々は,これらの課題を共同で達成する行動列を計算し,家庭内課題を予測するための枠組みを開発する。今後の課題を考慮しないシステムと比較して,実行時間の31%削減を実証する。
論文参考訳（メタデータ） (2025-02-04T07:31:55Z)
Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。最適な計画生成のための幅優先探索アルゴリズムを採用している。実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-09-30T17:57:28Z)
Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文参考訳（メタデータ） (2024-09-28T23:05:56Z)
Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文参考訳（メタデータ） (2024-05-02T17:59:31Z)
Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。 ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文参考訳（メタデータ） (2023-03-16T20:09:47Z)
Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文参考訳（メタデータ） (2022-12-30T12:32:43Z)
POMRL: No-Regret Learning-to-Plan with Increasing Horizons [43.693739167594295]
オンラインメタ強化学習環境におけるモデル不確実性の下での計画課題について検討する。本稿では,タスク間の基盤構造をメタラーニングし,タスクごとの計画を立てるアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-30T03:09:45Z)
Active Task Randomization: Learning Robust Skills via Unsupervised Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。 ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文参考訳（メタデータ） (2022-11-11T11:24:55Z)
Learning Temporally Extended Skills in Continuous Domains as Symbolic Actions for Planning [2.642698101441705]
長期計画と継続的な制御能力の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらす。本稿では,環境の計画状態の象徴的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
論文参考訳（メタデータ） (2022-07-11T17:13:10Z)
Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-07-19T15:56:01Z)
Hierarchical Reinforcement Learning as a Model of Human Task Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。このモデルは、タスクインターリービングの既知の経験的効果を再現する。その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文参考訳（メタデータ） (2020-01-04T17:53:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。