論文の概要: Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics
- arxiv url: http://arxiv.org/abs/2602.21203v1
- Date: Tue, 24 Feb 2026 18:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.895393
- Title: Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics
- Title(参考訳): Squint: Sim-to-Real Roboticsのための高速ビジュアル強化学習
- Authors: Abdulaziz Almuzairee, Henrik I. Christensen,
- Abstract要約: Squintは、従来の視覚的オフポリティクスやオンポリティクス法よりも高速なウォールクロックトレーニングを実現する視覚的アクター批判法である。
私たちは、1台の3090 GPUで15分間ポリシーをトレーニングし、ほとんどのタスクは6分以内で収束します。
- 参考スコア(独自算出の注目度): 3.4676914516164623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reinforcement learning is appealing for robotics but expensive -- off-policy methods are sample-efficient yet slow; on-policy methods parallelize well but waste samples. Recent work has shown that off-policy methods can train faster than on-policy methods in wall-clock time for state-based control. Extending this to vision remains challenging, where high-dimensional input images complicate training dynamics and introduce substantial storage and encoding overhead. To address these challenges, we introduce Squint, a visual Soft Actor Critic method that achieves faster wall-clock training than prior visual off-policy and on-policy methods. Squint achieves this via parallel simulation, a distributional critic, resolution squinting, layer normalization, a tuned update-to-data ratio, and an optimized implementation. We evaluate on the SO-101 Task Set, a new suite of eight manipulation tasks in ManiSkill3 with heavy domain randomization, and demonstrate sim-to-real transfer to a real SO-101 robot. We train policies for 15 minutes on a single RTX 3090 GPU, with most tasks converging in under 6 minutes.
- Abstract(参考訳): ビジュアル強化学習はロボティクスには魅力的だが、高価な - オフポリティクス法はサンプリング効率が良いが遅い。
近年の研究では、オフ・ポリティィ法は、州ベースの制御のためにウォールタイムでオン・ポリティィ法よりも高速に訓練できることが示されている。
高次元の入力画像は、トレーニングのダイナミクスを複雑にし、かなりのストレージとエンコーディングオーバーヘッドを導入する。
これらの課題に対処するために,従来の視覚的オフポリティクスやオンポリティクス法よりも高速なウォールクロックトレーニングを実現する,視覚的アクター批判法であるSquintを紹介した。
Squintは並列シミュレーション、分散批評家、解像度スクインティング、レイヤ正規化、チューニングされた更新-データ比、最適化された実装を通じてこれを実現している。
我々は、ドメインランダム化の重いManiSkill3における8つの操作タスクからなる新しいスイートであるSO-101 Task Setを評価し、実際のSO-101ロボットへのsim-to-real転送を実証した。
RTX 3090 GPUで15分間ポリシーをトレーニングし、ほとんどのタスクは6分以内で収束します。
関連論文リスト
- Learning Sim-to-Real Humanoid Locomotion in 15 Minutes [51.500643119683225]
本稿では,FastSACとFastTD3という,非政治的RLアルゴリズムに基づくシンプルで実用的なレシピを提案する。
我々の単純なレシピは、何千もの並列環境において、政治外のRLアルゴリズムを大規模に安定化させる。
我々は,Unitree G1 と Booster T1 ロボット上でのヒューマノイド移動制御器のエンドツーエンドの迅速な学習を実演する。
論文 参考訳(メタデータ) (2025-12-01T18:55:17Z) - Accelerating Visual-Policy Learning through Parallel Differentiable Simulation [3.70729078195191]
本稿では、微分可能シミュレーションと一階解析的ポリシー勾配を利用する視覚政策学習のための計算効率の良いアルゴリズムを提案する。
我々のアプローチは、計算グラフからレンダリングプロセスを分離し、既存の微分可能シミュレーションエコシステムとのシームレスな統合を可能にします。
特に,本手法は最終リターンで4時間分の改善を実現し,単一のGPU上で4時間以内にヒューマノイド動作ポリシーを学習することに成功した。
論文 参考訳(メタデータ) (2025-05-15T18:38:36Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Teach a Robot to FISH: Versatile Imitation from One Minute of
Demonstrations [16.75777362520317]
Fast Imitation of Skills from Humans (FISH)は、人間のデモの1分未満で、堅牢な視覚スキルを学習できる新しい模倣学習アプローチである。
FISHは、ロボットの動作とデモンストレーションの間の"マッチ"に対応する報酬を計算する。
FISHの平均成功率は93%であり、従来の最先端の手法よりも約3.8倍高い。
論文 参考訳(メタデータ) (2023-03-02T18:57:38Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Watch and Match: Supercharging Imitation with Regularized Optimal
Transport [28.3572924961148]
正規化された最適輸送(ROT)は、最適輸送に基づく軌道マッチングの最近の進歩に基づく新しい模倣学習アルゴリズムである。
DeepMind Control Suite、OpenAI Robotics Suite、Meta-World Benchmarkにまたがる20の視覚的制御タスクの実験では、専門家のパフォーマンスの90%に達するために平均7.8倍の高速な模倣が実証された。
論文 参考訳(メタデータ) (2022-06-30T17:58:18Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。