Fugu-MT 論文翻訳(概要): Chain-of-Thought Predictive Control

論文の概要: Chain-of-Thought Predictive Control

arxiv url: http://arxiv.org/abs/2304.00776v1
Date: Mon, 3 Apr 2023 07:59:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-04 16:16:46.290040
Title: Chain-of-Thought Predictive Control
Title（参考訳）: 思考連鎖予測制御
Authors: Zhiwei Jia, Fangchen Liu, Vineet Thumuluri, Linghao Chen, Zhiao Huang, Hao Su
Abstract要約: 我々は、複雑な低レベル制御タスクの実証から、一般化可能なポリシー学習について研究する。本稿では,時間的抽象化の概念と階層的RLからの計画能力を取り入れた模倣学習手法を提案する。提案手法であるChain-of-Thought Predictive Control (CoTPC) は,スケーラブルかつ高度に最適化されたデモから,低レベルの操作タスクに挑戦する上で,既存のものよりも優れています。
参考スコア（独自算出の注目度）: 27.115967506563603
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study generalizable policy learning from demonstrations for complex low-level control tasks (e.g., contact-rich object manipulations). We propose an imitation learning method that incorporates the idea of temporal abstraction and the planning capabilities from Hierarchical RL (HRL) in a novel and effective manner. As a step towards decision foundation models, our design can utilize scalable, albeit highly sub-optimal, demonstrations. Specifically, we find certain short subsequences of the demos, i.e. the chain-of-thought (CoT), reflect their hierarchical structures by marking the completion of subgoals in the tasks. Our model learns to dynamically predict the entire CoT as coherent and structured long-term action guidance and consistently outperforms typical two-stage subgoal-conditioned policies. On the other hand, such CoT facilitates generalizable policy learning as they exemplify the decision patterns shared among demos (even those with heavy noises and randomness). Our method, Chain-of-Thought Predictive Control (CoTPC), significantly outperforms existing ones on challenging low-level manipulation tasks from scalable yet highly sub-optimal demos.
Abstract（参考訳）: 複雑な低レベル制御タスク(コンタクトリッチオブジェクト操作など)の実証から、一般化可能なポリシー学習を研究する。本稿では,時間的抽象概念と階層的RL(HRL)の計画能力を,新規かつ効果的な方法で組み込んだ模倣学習手法を提案する。意思決定基盤モデルへのステップとして、当社の設計はスケーラブルで、高度に最適化されたデモを活用できます。具体的には、デモの短い部分列、すなわち CoT は、タスクのサブゴールの完了を示すことでそれらの階層構造を反映する。本モデルでは,CoT全体を協調的かつ構造化された長期アクションガイダンスとして動的に予測し,典型的な2段階のサブゴール条件のポリシーを一貫して上回っている。一方、このようなCoTは、デモ間で共有される決定パターン(重騒音やランダム性のあるものでさえ)を実証するため、一般化可能な政策学習を促進する。提案手法であるChain-of-Thought Predictive Control (CoTPC) は,スケーラブルかつ高度に最適化されたデモから,低レベルの操作タスクに挑戦する上で,既存のものよりも優れています。

関連論文リスト

Reinforcement Learning for Flow-Matching Policies [9.308313682356285]
フローマッチングポリシーは、ジェネラリストロボティクスの強力なパラダイムとして登場した。本研究は, 強化学習による流路整合政策の訓練を行い, 当初の実演政策を超越するものである。
論文参考訳（メタデータ） (2025-07-20T18:15:18Z)
Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文参考訳（メタデータ） (2025-03-17T14:28:08Z)
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks [11.780987653813792]
高速な動的タスクのための教師付き学習フレームワークである生成予測制御を導入する。トレーニングされたフローマッチングポリシが,時間的整合性を維持し,高周波フィードバックを可能にするため,推論時にどのようにウォームスタートするかを示す。
論文参考訳（メタデータ） (2025-02-19T03:33:01Z)
Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文参考訳（メタデータ） (2024-10-17T17:46:27Z)
Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文参考訳（メタデータ） (2024-02-23T19:09:10Z)
KOPPA: Improving Prompt-based Continual Learning with Key-Query Orthogonal Projection and Prototype-based One-Versus-All [24.50129285997307]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文参考訳（メタデータ） (2023-11-26T20:35:19Z)
Unsupervised Meta-Learning via Few-shot Pseudo-supervised Contrastive Learning [72.3506897990639]
本稿では,Pseudo-supervised Contrast (PsCo) という,シンプルだが効果的なメタ学習フレームワークを提案する。 PsCoは、さまざまなドメイン内およびクロスドメインのいくつかのショット分類ベンチマークの下で、既存の教師なしメタラーニングメソッドより優れています。
論文参考訳（メタデータ） (2023-03-02T06:10:13Z)
Option-Aware Adversarial Inverse Reinforcement Learning for Robotic Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。逆逆強化学習に基づく新しいHILアルゴリズムを開発した。また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-05T00:28:26Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文参考訳（メタデータ） (2021-01-14T22:21:25Z)
TAMPC: A Controller for Escaping Traps in Novel Environments [0.0]
ランダムに収集したトレーニングセットからトラップのないシステムのダイナミクスを学習する。予期せぬトラップが実行中に発生すると、ダイナミックスとコントロール戦略に適応する方法を見つけなければなりません。提案手法であるTap-Aware Model Predictive Control (TAMPC) は2段階階層制御アルゴリズムである。
論文参考訳（メタデータ） (2020-10-23T16:33:15Z)
Effective Unsupervised Domain Adaptation with Adversarially Trained Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文参考訳（メタデータ） (2020-10-05T01:49:47Z)
Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文参考訳（メタデータ） (2019-12-29T08:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。