論文の概要: Chain-of-Thought Predictive Control
- arxiv url: http://arxiv.org/abs/2304.00776v1
- Date: Mon, 3 Apr 2023 07:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 16:16:46.290040
- Title: Chain-of-Thought Predictive Control
- Title(参考訳): 思考連鎖予測制御
- Authors: Zhiwei Jia, Fangchen Liu, Vineet Thumuluri, Linghao Chen, Zhiao Huang,
Hao Su
- Abstract要約: 我々は、複雑な低レベル制御タスクの実証から、一般化可能なポリシー学習について研究する。
本稿では,時間的抽象化の概念と階層的RLからの計画能力を取り入れた模倣学習手法を提案する。
提案手法であるChain-of-Thought Predictive Control (CoTPC) は,スケーラブルかつ高度に最適化されたデモから,低レベルの操作タスクに挑戦する上で,既存のものよりも優れています。
- 参考スコア(独自算出の注目度): 27.115967506563603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study generalizable policy learning from demonstrations for complex
low-level control tasks (e.g., contact-rich object manipulations). We propose
an imitation learning method that incorporates the idea of temporal abstraction
and the planning capabilities from Hierarchical RL (HRL) in a novel and
effective manner. As a step towards decision foundation models, our design can
utilize scalable, albeit highly sub-optimal, demonstrations. Specifically, we
find certain short subsequences of the demos, i.e. the chain-of-thought (CoT),
reflect their hierarchical structures by marking the completion of subgoals in
the tasks. Our model learns to dynamically predict the entire CoT as coherent
and structured long-term action guidance and consistently outperforms typical
two-stage subgoal-conditioned policies. On the other hand, such CoT facilitates
generalizable policy learning as they exemplify the decision patterns shared
among demos (even those with heavy noises and randomness). Our method,
Chain-of-Thought Predictive Control (CoTPC), significantly outperforms existing
ones on challenging low-level manipulation tasks from scalable yet highly
sub-optimal demos.
- Abstract(参考訳): 複雑な低レベル制御タスク(コンタクトリッチオブジェクト操作など)の実証から、一般化可能なポリシー学習を研究する。
本稿では,時間的抽象概念と階層的RL(HRL)の計画能力を,新規かつ効果的な方法で組み込んだ模倣学習手法を提案する。
意思決定基盤モデルへのステップとして、当社の設計はスケーラブルで、高度に最適化されたデモを活用できます。
具体的には、デモの短い部分列、すなわち CoT は、タスクのサブゴールの完了を示すことでそれらの階層構造を反映する。
本モデルでは,CoT全体を協調的かつ構造化された長期アクションガイダンスとして動的に予測し,典型的な2段階のサブゴール条件のポリシーを一貫して上回っている。
一方、このようなCoTは、デモ間で共有される決定パターン(重騒音やランダム性のあるものでさえ)を実証するため、一般化可能な政策学習を促進する。
提案手法であるChain-of-Thought Predictive Control (CoTPC) は,スケーラブルかつ高度に最適化されたデモから,低レベルの操作タスクに挑戦する上で,既存のものよりも優れています。
関連論文リスト
- Foundation Policies with Hilbert Representations [61.19488199476655]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Discovering Hierarchical Achievements in Reinforcement Learning via
Contrastive Learning [17.28280896937486]
本稿では, エージェントが次の達成を予測する能力を高めることを目的とした, 達成蒸留と呼ばれる新しいコントラスト学習手法を提案する。
提案手法は,階層的な成果を見出すための強力な能力を示し,挑戦的なクラフト環境における最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-07-07T09:47:15Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。