論文の概要: Unified Locomotion Transformer with Simultaneous Sim-to-Real Transfer for Quadrupeds
- arxiv url: http://arxiv.org/abs/2503.08997v1
- Date: Wed, 12 Mar 2025 02:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:38:26.777251
- Title: Unified Locomotion Transformer with Simultaneous Sim-to-Real Transfer for Quadrupeds
- Title(参考訳): 四足歩行の同時同時移動を用いた統一ロコモーション変換器
- Authors: Dikai Liu, Tianwei Zhang, Jianxiong Yin, Simon See,
- Abstract要約: Unified Locomotion Transformer (ULT)は、知識伝達とポリシー最適化のプロセスを統合するための新しいトランスフォーマーベースのフレームワークである。
ポリシーは強化学習、次の状態アクション予測、アクション模倣によって最適化され、すべて1つのトレーニング段階で、ゼロショットデプロイメントを実現する。
- 参考スコア(独自算出の注目度): 20.960989649502206
- License:
- Abstract: Quadrupeds have gained rapid advancement in their capability of traversing across complex terrains. The adoption of deep Reinforcement Learning (RL), transformers and various knowledge transfer techniques can greatly reduce the sim-to-real gap. However, the classical teacher-student framework commonly used in existing locomotion policies requires a pre-trained teacher and leverages the privilege information to guide the student policy. With the implementation of large-scale models in robotics controllers, especially transformers-based ones, this knowledge distillation technique starts to show its weakness in efficiency, due to the requirement of multiple supervised stages. In this paper, we propose Unified Locomotion Transformer (ULT), a new transformer-based framework to unify the processes of knowledge transfer and policy optimization in a single network while still taking advantage of privilege information. The policies are optimized with reinforcement learning, next state-action prediction, and action imitation, all in just one training stage, to achieve zero-shot deployment. Evaluation results demonstrate that with ULT, optimal teacher and student policies can be obtained at the same time, greatly easing the difficulty in knowledge transfer, even with complex transformer-based models.
- Abstract(参考訳): 四足歩行は複雑な地形を横断する能力において急速に進歩した。
深層強化学習(Reinforcement Learning, RL)やトランスフォーマー, 様々な知識伝達技術の採用により, sim-to-realのギャップを大幅に減らすことができる。
しかし、既存の移動政策でよく使われる古典的な教師学生の枠組みは、事前訓練された教師を必要とし、特権情報を利用して生徒の政策を指導する。
ロボットコントローラ、特にトランスフォーマーベースの大規模モデルの実装により、この知識蒸留技術は、複数の監督段階を必要とするため、その効率性の弱さを示すようになった。
本稿では,単一ネットワークにおける知識伝達とポリシー最適化のプロセスを統合するための,新たなトランスフォーマーベースのフレームワークであるUnified Locomotion Transformer (ULT)を提案する。
ポリシーは強化学習、次の状態アクション予測、アクション模倣によって最適化され、すべて1つのトレーニング段階で、ゼロショットデプロイメントを実現する。
評価の結果、ULTでは教師と生徒の政策を同時に得ることができ、複雑なトランスフォーマーモデルであっても知識伝達の難しさを大幅に軽減できることがわかった。
関連論文リスト
- SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning [20.33419404756149]
本稿では,シミュレーションで純粋に強化学習によって訓練された実世界の課題を,低コストで解決するモバイル操作システムを提案する。
単一のポリシーは、検索、移動、把握、輸送、降下を含む長期的タスクを自律的に解決し、80%近い現実世界の成功を達成します。
この性能は、ロボットがより効率的であり、遠隔操作の約1.5倍の速度で動作しているのに対して、同じタスクにおける専門家の遠隔操作に匹敵する。
論文 参考訳(メタデータ) (2025-01-17T01:32:18Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - The Information Pathways Hypothesis: Transformers are Dynamic
Self-Ensembles [24.52890377175555]
本研究では,学習中の自己注意の記憶と計算コストを4~8倍に削減できる変圧器の汎用的学習戦略を提案する。
本研究では,ネットワーク内のサブサンプリング経路からサブモデルのアンサンブルを生成できることを示す。
論文 参考訳(メタデータ) (2023-06-02T17:28:46Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Sim-to-Real Transfer for Quadrupedal Locomotion via Terrain Transformer [31.581743045813557]
様々な地形における四足歩行制御のための高容量トランスモデルを提案する。
シミュレーション・トゥ・リアルシナリオにおいてTransformerをよりよく活用するために、オフライン事前学習段階とオンライン修正段階からなる新しい2段階トレーニングフレームワークを提案する。
シミュレーション実験により、TERTはリターン、エネルギー消費、制御のスムーズさの観点から、様々な地形における最先端のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2022-12-15T11:44:11Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。