Fugu-MT 論文翻訳(概要): Chain-of-Thought Predictive Control

論文の概要: Chain-of-Thought Predictive Control

arxiv url: http://arxiv.org/abs/2304.00776v2
Date: Sun, 7 Jul 2024 22:06:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 05:42:28.615353
Title: Chain-of-Thought Predictive Control
Title（参考訳）: Chain-of-Thought予測制御
Authors: Zhiwei Jia, Vineet Thumuluri, Fangchen Liu, Linghao Chen, Zhiao Huang, Hao Su,
Abstract要約: 複雑な低レベル制御のための実証から一般化可能な政策学習について研究する。準最適デモを利用した新しい階層型模倣学習法を提案する。
参考スコア（独自算出の注目度）: 32.30974063877643
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study generalizable policy learning from demonstrations for complex low-level control (e.g., contact-rich object manipulations). We propose a novel hierarchical imitation learning method that utilizes sub-optimal demos. Firstly, we propose an observation space-agnostic approach that efficiently discovers the multi-step subskill decomposition of the demos in an unsupervised manner. By grouping temporarily close and functionally similar actions into subskill-level demo segments, the observations at the segment boundaries constitute a chain of planning steps for the task, which we refer to as the chain-of-thought (CoT). Next, we propose a Transformer-based design that effectively learns to predict the CoT as the subskill-level guidance. We couple action and subskill predictions via learnable prompt tokens and a hybrid masking strategy, which enable dynamically updated guidance at test time and improve feature representation of the trajectory for generalizable policy learning. Our method, Chain-of-Thought Predictive Control (CoTPC), consistently surpasses existing strong baselines on challenging manipulation tasks with sub-optimal demos.
Abstract（参考訳）: 複雑な低レベル制御(コンタクトリッチなオブジェクト操作など)のための実証から、一般化可能なポリシー学習を研究する。準最適デモを利用した新しい階層型模倣学習法を提案する。まず、デモの多段階のサブスキル分解を教師なしで効率的に発見する観察空間に依存しない手法を提案する。サブスキルレベルのデモセグメントに一時的に閉じて機能的に類似したアクションをグループ化することで、セグメント境界での観察はタスクの計画ステップの連鎖を構成します。次に,サブスキルレベルのガイダンスとしてCoTの予測を効果的に学習するTransformerベースの設計を提案する。我々は、学習可能なプロンプトトークンとハイブリッドマスキング戦略を用いて、テスト時に動的に更新されたガイダンスと、一般化可能なポリシー学習のための軌跡の特徴表現を改善するためのアクションとサブスキルの予測を結合する。提案手法であるChain-of-Thought Predictive Control (CoTPC) は、最適化されたデモによる操作タスクに挑戦する上で、既存の強力なベースラインを一貫して上回っている。

関連論文リスト

Reinforcement Learning for Flow-Matching Policies [9.308313682356285]
フローマッチングポリシーは、ジェネラリストロボティクスの強力なパラダイムとして登場した。本研究は, 強化学習による流路整合政策の訓練を行い, 当初の実演政策を超越するものである。
論文参考訳（メタデータ） (2025-07-20T18:15:18Z)
Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文参考訳（メタデータ） (2025-03-17T14:28:08Z)
Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks [11.780987653813792]
高速な動的タスクのための教師付き学習フレームワークである生成予測制御を導入する。トレーニングされたフローマッチングポリシが,時間的整合性を維持し,高周波フィードバックを可能にするため,推論時にどのようにウォームスタートするかを示す。
論文参考訳（メタデータ） (2025-02-19T03:33:01Z)
Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文参考訳（メタデータ） (2024-10-17T17:46:27Z)
Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文参考訳（メタデータ） (2024-02-23T19:09:10Z)
KOPPA: Improving Prompt-based Continual Learning with Key-Query Orthogonal Projection and Prototype-based One-Versus-All [24.50129285997307]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文参考訳（メタデータ） (2023-11-26T20:35:19Z)
Unsupervised Meta-Learning via Few-shot Pseudo-supervised Contrastive Learning [72.3506897990639]
本稿では,Pseudo-supervised Contrast (PsCo) という,シンプルだが効果的なメタ学習フレームワークを提案する。 PsCoは、さまざまなドメイン内およびクロスドメインのいくつかのショット分類ベンチマークの下で、既存の教師なしメタラーニングメソッドより優れています。
論文参考訳（メタデータ） (2023-03-02T06:10:13Z)
Option-Aware Adversarial Inverse Reinforcement Learning for Robotic Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。逆逆強化学習に基づく新しいHILアルゴリズムを開発した。また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-05T00:28:26Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文参考訳（メタデータ） (2021-01-14T22:21:25Z)
TAMPC: A Controller for Escaping Traps in Novel Environments [0.0]
ランダムに収集したトレーニングセットからトラップのないシステムのダイナミクスを学習する。予期せぬトラップが実行中に発生すると、ダイナミックスとコントロール戦略に適応する方法を見つけなければなりません。提案手法であるTap-Aware Model Predictive Control (TAMPC) は2段階階層制御アルゴリズムである。
論文参考訳（メタデータ） (2020-10-23T16:33:15Z)
Effective Unsupervised Domain Adaptation with Adversarially Trained Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文参考訳（メタデータ） (2020-10-05T01:49:47Z)
Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文参考訳（メタデータ） (2019-12-29T08:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。