論文の概要: Model Tensor Planning
- arxiv url: http://arxiv.org/abs/2505.01059v1
- Date: Fri, 02 May 2025 07:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.941045
- Title: Model Tensor Planning
- Title(参考訳): モデルテンソル計画
- Authors: An T. Le, Khai Nguyen, Minh Nhat Vu, João Carvalho, Jan Peters,
- Abstract要約: 我々は,高エントロピー制御トラジェクトリ生成を導入した新しいサンプリングベースMPCフレームワークであるEmphModel Planning (MTP)を提案する。
ランダム化された多部グラフをサンプリングすることにより、MPPはスムーズでグローバルに多様な制御候補を保証する。
我々の実装はJAXで完全にベクトル化され、 MuJoCo XLAと互換性があり、リアルタイム制御のためのemphJust-in-time(JIT)コンパイルとバッチロールアウトをサポートしています。
- 参考スコア(独自算出の注目度): 22.164641953175845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sampling-based model predictive control (MPC) offers strong performance in nonlinear and contact-rich robotic tasks, yet often suffers from poor exploration due to locally greedy sampling schemes. We propose \emph{Model Tensor Planning} (MTP), a novel sampling-based MPC framework that introduces high-entropy control trajectory generation through structured tensor sampling. By sampling over randomized multipartite graphs and interpolating control trajectories with B-splines and Akima splines, MTP ensures smooth and globally diverse control candidates. We further propose a simple $\beta$-mixing strategy that blends local exploitative and global exploratory samples within the modified Cross-Entropy Method (CEM) update, balancing control refinement and exploration. Theoretically, we show that MTP achieves asymptotic path coverage and maximum entropy in the control trajectory space in the limit of infinite tensor depth and width. Our implementation is fully vectorized using JAX and compatible with MuJoCo XLA, supporting \emph{Just-in-time} (JIT) compilation and batched rollouts for real-time control with online domain randomization. Through experiments on various challenging robotic tasks, ranging from dexterous in-hand manipulation to humanoid locomotion, we demonstrate that MTP outperforms standard MPC and evolutionary strategy baselines in task success and control robustness. Design and sensitivity ablations confirm the effectiveness of MTP tensor sampling structure, spline interpolation choices, and mixing strategy. Altogether, MTP offers a scalable framework for robust exploration in model-based planning and control.
- Abstract(参考訳): サンプリングベースのモデル予測制御(MPC)は、非線形および接触に富むロボットタスクにおいて強力な性能を提供するが、しばしば局所的な欲求的なサンプリングスキームのために探索に苦しむ。
構造テンソルサンプリングによる高エントロピー制御トラジェクトリ生成を実現する新しいサンプリングベースMPCフレームワークである \emph{Model Tensor Planning} (MTP) を提案する。
ランダム化された多部グラフをサンプリングし、B-スプラインやAkimaスプラインで制御軌道を補間することにより、MPPはスムーズかつグローバルな制御候補を保証する。
さらに,CEM (Cross-Entropy Method) の更新において,局所的なエクスプロイトとグローバルな探索サンプルをブレンドし,制御の洗練と探索のバランスをとる,単純な$\beta$-mixing戦略を提案する。
理論的には、MPPは無限のテンソル深さと幅の限界における制御軌道空間における漸近経路のカバレッジと最大エントロピーを達成する。
我々の実装はJAXで完全にベクトル化され、 MuJoCo XLAと互換性があり、オンラインドメインのランダム化を伴うリアルタイム制御のために \emph{Just-in-time} (JIT) コンパイルとバッチロールアウトをサポートする。
手動操作からヒューマノイド・ロコモーションに至るまで、様々な課題のあるロボットタスクの実験を通じて、MPPがタスクの成功とロバストネスの制御において、標準的なMPCおよび進化戦略のベースラインより優れていることを実証した。
MTPテンソルサンプリング構造,スプライン補間選択,混合戦略の有効性を設計および感度改善により確認した。
さらに、MTPはモデルベースの計画と制御の堅牢な探索のためのスケーラブルなフレームワークを提供する。
関連論文リスト
- Model-based controller assisted domain randomization in deep reinforcement learning: application to nonlinear powertrain control [0.0]
本研究では, 深部強化学習(DRL)の枠組みを用いた新しいロバスト制御手法を提案する。
問題設定は、不確実性と非線形性を考慮した制御系に対して、バニラMDPの集合である潜在マルコフ決定プロセス(LMDP)を介してモデル化される。
従来のDRLベースの制御と比較して、提案するコントローラ設計はより賢く、高度な一般化能力を実現することができる。
論文 参考訳(メタデータ) (2025-04-28T12:09:07Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - MSTF: Multiscale Transformer for Incomplete Trajectory Prediction [30.152217860860464]
本稿では,不完全な軌道予測のためのエンドツーエンドフレームワークであるMultiscale Transformer(MSTF)を提案する。
MSTFは、Multiscale Attention Head (MAH)とInformation Increment-based Pattern Adaptive (IIPA)モジュールを統合している。
2つの大規模実世界のデータセットを用いて提案したMSTFモデルを評価する。
論文 参考訳(メタデータ) (2024-07-08T07:10:17Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Practical Probabilistic Model-based Deep Reinforcement Learning by
Integrating Dropout Uncertainty and Trajectory Sampling [7.179313063022576]
本稿では,ニューラルネットワーク上に構築された現在の確率モデルベース強化学習(MBRL)の予測安定性,予測精度,制御能力について述べる。
トラジェクトリサンプリング(DPETS)を用いた新しいアプローチであるドロップアウト型確率アンサンブルを提案する。
論文 参考訳(メタデータ) (2023-09-20T06:39:19Z) - Tuning Legged Locomotion Controllers via Safe Bayesian Optimization [47.87675010450171]
本稿では,ロボットハードウェアプラットフォームにおけるモデルベースコントローラの展開を効率化するための,データ駆動型戦略を提案する。
モデルフリーな安全な学習アルゴリズムを用いて制御ゲインのチューニングを自動化し、制御定式化で使用される単純化されたモデルと実システムとのミスマッチに対処する。
論文 参考訳(メタデータ) (2023-06-12T13:10:14Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。