Fugu-MT 論文翻訳(概要): Learning and Deploying Robust Locomotion Policies with Minimal Dynamics Randomization

論文の概要: Learning and Deploying Robust Locomotion Policies with Minimal Dynamics Randomization

arxiv url: http://arxiv.org/abs/2209.12878v1
Date: Mon, 26 Sep 2022 17:44:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 17:17:55.735359
Title: Learning and Deploying Robust Locomotion Policies with Minimal Dynamics Randomization
Title（参考訳）: 最小ダイナミクスランダム化によるロバストロコモーションポリシーの学習と展開
Authors: Luigi Campanaro, Siddhant Gangapurwala, Wolfgang Merkt and Ioannis Havoutis
Abstract要約: トレーニング中の摂動力学に対するランダム力注入(RFI)の簡単な戦略について検討する。ランダム力の適用により、動的ランダム化をエミュレートできることを示す。 ERFIは、システム質量の変動に対して、RFIよりも平均して61%向上した性能に対して、さらなるロバスト性を提供することを示した。
参考スコア（独自算出の注目度）: 13.554756318674777
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Training deep reinforcement learning (DRL) locomotion policies often requires massive amounts of data to converge to the desired behavior. In this regard, simulators provide a cheap and abundant source. For successful sim-to-real transfer, exhaustively engineered approaches such as system identification, dynamics randomization, and domain adaptation are generally employed. As an alternative, we investigate a simple strategy of random force injection (RFI) to perturb system dynamics during training. We show that the application of random forces enables us to emulate dynamics randomization.This allows us to obtain locomotion policies that are robust to variations in system dynamics. We further extend RFI, referred to as extended random force injection (ERFI), by introducing an episodic actuation offset. We demonstrate that ERFI provides additional robustness for variations in system mass offering on average a 61% improved performance over RFI. We also show that ERFI is sufficient to perform a successful sim-to-real transfer on two different quadrupedal platforms, ANYmal C and Unitree A1, even for perceptive locomotion over uneven terrain in outdoor environments.
Abstract（参考訳）: 深層強化学習(DRL)のロコモーションポリシーの訓練は、望まれる行動に収束するために大量のデータを必要とすることが多い。この点において、シミュレータは安価で豊富なソースを提供する。 sim-to-real転送を成功させるためには、システム識別、動的ランダム化、ドメイン適応といった徹底的に設計されたアプローチが一般的である。その代替として、トレーニング中の摂動系力学に対するランダム・フォース・インジェクション(RFI)の簡単な戦略を検討する。我々は,ランダムな力の応用により,動的ランダム化をエミュレートできることを示し,システムダイナミクスの変動にロバストなロコモーションポリシーを得ることができることを示した。さらに、エピソディックアクティベーションオフセットを導入することで、拡張ランダム力注入(extended random force injection:erfi)と呼ばれるrfiをさらに拡張する。 ERFIはシステム質量の変動に対して,RFIよりも平均して61%向上した性能を示す。また,ERFIは,屋外環境における不均一な地形上での知覚的移動においても,ANYmal CとUnitree A1の2つの異なる四面体プラットフォーム上でのシミュ---リアル移動を成功させるのに十分であることを示す。

関連論文リスト

SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文参考訳（メタデータ） (2025-10-20T19:53:02Z)
Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning [35.83999932977034]
エージェントの振る舞いを人間の好みや評価指標とよりよく整合させるため,次世代の予測モデルに適した新しいR1型強化微調整パラダイムを提案する。提案手法では、分布アライメントを改善するためのメトリック指向ポリシー最適化アルゴリズムと、スーパービジョンファインチューニング(SFT)と強化ファインチューニング(RFT)を交互に行う反復的な"SFT-RFT-SFT"トレーニング戦略を導入する。 Open Sim Agents Challengeの結果、SMART-R1は総合リアリズムメタスコア0.7858で最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-09-28T17:36:13Z)
Sim2Dust: Mastering Dynamic Waypoint Tracking on Granular Media [16.948852537273655]
本研究は,挑戦面上での動的ウェイポイントトラッキングのためのロバストな制御ポリシを開発するための,完全なsim-to-realフレームワークを提案する。我々は超並列シミュレーションを利用して、プロシージャ生成環境の広範囲にわたる強化学習エージェントを訓練する。本実験は,複数の強化学習アルゴリズムと動作平滑化フィルタを体系的に比較し,実世界の展開において最も効果的な組み合わせを同定する。
論文参考訳（メタデータ） (2025-08-15T14:30:07Z)
Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文参考訳（メタデータ） (2025-05-23T03:28:25Z)
RIFT: Closed-Loop RL Fine-Tuning for Realistic and Controllable Traffic Simulation [8.952198850855426]
データ駆動シミュレータでオープンループ模倣学習を事前学習し、軌道レベルのリアリズムとマルチモーダリティをキャプチャする2段階AV中心シミュレーションフレームワークを提案する。微調整の段階では、トラジェクトリレベルの多モード性を保持するシンプルな、かつ効果的な閉ループRL微調整戦略であるRIFTを提案する。大規模な実験により、RIFTは生成された交通シナリオの現実性と制御性を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-05-06T09:12:37Z)
A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文参考訳（メタデータ） (2025-04-21T14:25:23Z)
GRAM: Generalization in Deep RL with a Robust Adaptation Module [62.662894174616895]
本研究では,深層強化学習における動的一般化の枠組みを提案する。本稿では,分散環境と分散環境の両方を識別・反応する機構を提供するロバスト適応モジュールを提案する。我々のアルゴリズムであるGRAMは,展開時の分布内および分布外シナリオにまたがる強力な一般化性能を実現する。
論文参考訳（メタデータ） (2024-12-05T16:39:01Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文参考訳（メタデータ） (2024-06-21T13:48:37Z)
DrEureka: Language Model Guided Sim-To-Real Transfer [64.14314476811806]
シミュレーションで学んだ政策を現実世界に伝達することは、ロボットのスキルを大規模に獲得する上で有望な戦略である。本稿では,Large Language Models (LLMs) を用いてシム・トゥ・リアル設計の自動化と高速化を行う。本手法では,ヨガボールの上を歩行する四足歩行や四足歩行など,新しいロボットタスクを解くことができる。
論文参考訳（メタデータ） (2024-06-04T04:53:05Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Domain Randomization via Entropy Maximization [32.76511125425768]
そこで本研究では,実世界のデータを必要としないシミュレーションにおいて,シミュレーション中の動的分布を自動的に生成する,sim-to-realトランスファーに対処する新しい手法を提案する。トレーニング分布のエントロピーを直接最大化する制約付き最適化問題であるEntropy Maximization (DORAEMON) によるDOmain RAndomizationを導入する。我々は、高度に適応的で一般化可能な政策を得る上で、DORAEMONの一貫性のある利点を実証的に検証する。
論文参考訳（メタデータ） (2023-11-03T12:54:05Z)
Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。 TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文参考訳（メタデータ） (2023-10-12T20:49:15Z)
Residual Physics Learning and System Identification for Sim-to-real Transfer of Policies on Buoyancy Assisted Legged Robots [14.760426243769308]
本研究では,BALLUロボットのシステム識別による制御ポリシのロバストなシミュレートを実演する。標準的な教師あり学習の定式化に頼るのではなく、深層強化学習を利用して外部力政策を訓練する。シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。
論文参考訳（メタデータ） (2023-03-16T18:49:05Z)
Domain Randomization for Robust, Affordable and Effective Closed-loop Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文参考訳（メタデータ） (2023-03-07T18:50:00Z)
Objective-aware Traffic Simulation via Inverse Reinforcement Learning [31.26257563160961]
逆強化学習問題として交通シミュレーションを定式化する。動的ロバストシミュレーション学習のためのパラメータ共有逆強化学習モデルを提案する。提案モデルでは,実世界の車両の軌道を模倣し,同時に報酬関数を復元することができる。
論文参考訳（メタデータ） (2021-05-20T07:26:34Z)
TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。 TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文参考訳（メタデータ） (2021-01-17T00:29:30Z)
RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文参考訳（メタデータ） (2020-12-05T18:30:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。