論文の概要: Chain-of-Thought Predictive Control
- arxiv url: http://arxiv.org/abs/2304.00776v1
- Date: Mon, 3 Apr 2023 07:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 16:16:46.290040
- Title: Chain-of-Thought Predictive Control
- Title(参考訳): 思考連鎖予測制御
- Authors: Zhiwei Jia, Fangchen Liu, Vineet Thumuluri, Linghao Chen, Zhiao Huang,
Hao Su
- Abstract要約: 我々は、複雑な低レベル制御タスクの実証から、一般化可能なポリシー学習について研究する。
本稿では,時間的抽象化の概念と階層的RLからの計画能力を取り入れた模倣学習手法を提案する。
提案手法であるChain-of-Thought Predictive Control (CoTPC) は,スケーラブルかつ高度に最適化されたデモから,低レベルの操作タスクに挑戦する上で,既存のものよりも優れています。
- 参考スコア(独自算出の注目度): 27.115967506563603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study generalizable policy learning from demonstrations for complex
low-level control tasks (e.g., contact-rich object manipulations). We propose
an imitation learning method that incorporates the idea of temporal abstraction
and the planning capabilities from Hierarchical RL (HRL) in a novel and
effective manner. As a step towards decision foundation models, our design can
utilize scalable, albeit highly sub-optimal, demonstrations. Specifically, we
find certain short subsequences of the demos, i.e. the chain-of-thought (CoT),
reflect their hierarchical structures by marking the completion of subgoals in
the tasks. Our model learns to dynamically predict the entire CoT as coherent
and structured long-term action guidance and consistently outperforms typical
two-stage subgoal-conditioned policies. On the other hand, such CoT facilitates
generalizable policy learning as they exemplify the decision patterns shared
among demos (even those with heavy noises and randomness). Our method,
Chain-of-Thought Predictive Control (CoTPC), significantly outperforms existing
ones on challenging low-level manipulation tasks from scalable yet highly
sub-optimal demos.
- Abstract(参考訳): 複雑な低レベル制御タスク(コンタクトリッチオブジェクト操作など)の実証から、一般化可能なポリシー学習を研究する。
本稿では,時間的抽象概念と階層的RL(HRL)の計画能力を,新規かつ効果的な方法で組み込んだ模倣学習手法を提案する。
意思決定基盤モデルへのステップとして、当社の設計はスケーラブルで、高度に最適化されたデモを活用できます。
具体的には、デモの短い部分列、すなわち CoT は、タスクのサブゴールの完了を示すことでそれらの階層構造を反映する。
本モデルでは,CoT全体を協調的かつ構造化された長期アクションガイダンスとして動的に予測し,典型的な2段階のサブゴール条件のポリシーを一貫して上回っている。
一方、このようなCoTは、デモ間で共有される決定パターン(重騒音やランダム性のあるものでさえ)を実証するため、一般化可能な政策学習を促進する。
提案手法であるChain-of-Thought Predictive Control (CoTPC) は,スケーラブルかつ高度に最適化されたデモから,低レベルの操作タスクに挑戦する上で,既存のものよりも優れています。
関連論文リスト
- Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - KOPPA: Improving Prompt-based Continual Learning with Key-Query Orthogonal Projection and Prototype-based One-Versus-All [24.50129285997307]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。
提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文 参考訳(メタデータ) (2023-11-26T20:35:19Z) - Unsupervised Meta-Learning via Few-shot Pseudo-supervised Contrastive
Learning [72.3506897990639]
本稿では,Pseudo-supervised Contrast (PsCo) という,シンプルだが効果的なメタ学習フレームワークを提案する。
PsCoは、さまざまなドメイン内およびクロスドメインのいくつかのショット分類ベンチマークの下で、既存の教師なしメタラーニングメソッドより優れています。
論文 参考訳(メタデータ) (2023-03-02T06:10:13Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - TAMPC: A Controller for Escaping Traps in Novel Environments [0.0]
ランダムに収集したトレーニングセットからトラップのないシステムのダイナミクスを学習する。
予期せぬトラップが実行中に発生すると、ダイナミックスとコントロール戦略に適応する方法を見つけなければなりません。
提案手法であるTap-Aware Model Predictive Control (TAMPC) は2段階階層制御アルゴリズムである。
論文 参考訳(メタデータ) (2020-10-23T16:33:15Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。