論文の概要: Chain-of-Thought Predictive Control
- arxiv url: http://arxiv.org/abs/2304.00776v2
- Date: Sun, 7 Jul 2024 22:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 05:42:28.615353
- Title: Chain-of-Thought Predictive Control
- Title(参考訳): Chain-of-Thought予測制御
- Authors: Zhiwei Jia, Vineet Thumuluri, Fangchen Liu, Linghao Chen, Zhiao Huang, Hao Su,
- Abstract要約: 複雑な低レベル制御のための実証から一般化可能な政策学習について研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
- 参考スコア(独自算出の注目度): 32.30974063877643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study generalizable policy learning from demonstrations for complex low-level control (e.g., contact-rich object manipulations). We propose a novel hierarchical imitation learning method that utilizes sub-optimal demos. Firstly, we propose an observation space-agnostic approach that efficiently discovers the multi-step subskill decomposition of the demos in an unsupervised manner. By grouping temporarily close and functionally similar actions into subskill-level demo segments, the observations at the segment boundaries constitute a chain of planning steps for the task, which we refer to as the chain-of-thought (CoT). Next, we propose a Transformer-based design that effectively learns to predict the CoT as the subskill-level guidance. We couple action and subskill predictions via learnable prompt tokens and a hybrid masking strategy, which enable dynamically updated guidance at test time and improve feature representation of the trajectory for generalizable policy learning. Our method, Chain-of-Thought Predictive Control (CoTPC), consistently surpasses existing strong baselines on challenging manipulation tasks with sub-optimal demos.
- Abstract(参考訳): 複雑な低レベル制御(コンタクトリッチなオブジェクト操作など)のための実証から、一般化可能なポリシー学習を研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
まず、デモの多段階のサブスキル分解を教師なしで効率的に発見する観察空間に依存しない手法を提案する。
サブスキルレベルのデモセグメントに一時的に閉じて機能的に類似したアクションをグループ化することで、セグメント境界での観察はタスクの計画ステップの連鎖を構成します。
次に,サブスキルレベルのガイダンスとしてCoTの予測を効果的に学習するTransformerベースの設計を提案する。
我々は、学習可能なプロンプトトークンとハイブリッドマスキング戦略を用いて、テスト時に動的に更新されたガイダンスと、一般化可能なポリシー学習のための軌跡の特徴表現を改善するためのアクションとサブスキルの予測を結合する。
提案手法であるChain-of-Thought Predictive Control (CoTPC) は、最適化されたデモによる操作タスクに挑戦する上で、既存の強力なベースラインを一貫して上回っている。
関連論文リスト
- Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - KOPPA: Improving Prompt-based Continual Learning with Key-Query
Orthogonal Projection and Prototype-based One-Versus-All [26.506535205897443]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。
提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文 参考訳(メタデータ) (2023-11-26T20:35:19Z) - Unsupervised Meta-Learning via Few-shot Pseudo-supervised Contrastive
Learning [72.3506897990639]
本稿では,Pseudo-supervised Contrast (PsCo) という,シンプルだが効果的なメタ学習フレームワークを提案する。
PsCoは、さまざまなドメイン内およびクロスドメインのいくつかのショット分類ベンチマークの下で、既存の教師なしメタラーニングメソッドより優れています。
論文 参考訳(メタデータ) (2023-03-02T06:10:13Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - TAMPC: A Controller for Escaping Traps in Novel Environments [0.0]
ランダムに収集したトレーニングセットからトラップのないシステムのダイナミクスを学習する。
予期せぬトラップが実行中に発生すると、ダイナミックスとコントロール戦略に適応する方法を見つけなければなりません。
提案手法であるTap-Aware Model Predictive Control (TAMPC) は2段階階層制御アルゴリズムである。
論文 参考訳(メタデータ) (2020-10-23T16:33:15Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。