論文の概要: End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting
- arxiv url: http://arxiv.org/abs/2601.20846v1
- Date: Wed, 28 Jan 2026 18:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.988376
- Title: End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting
- Title(参考訳): ニューラルネットワークによる実例-実例-実例-実例--RLポリシー伝達とロボット切削への応用
- Authors: Jamie Hathaway, Alireza Rastegarpanah, Rustam Stolkin,
- Abstract要約: そこで本研究では,強化学習政策のシミュレートから現実への移行手法を提案する。
スタイル転送のための自己教師付き特徴表現を共同学習するために,変分オートエンコーダを用いる。
本稿では,未知素材のロボット切断を事例として,本手法の適用例を示す。
- 参考スコア(独自算出の注目度): 3.398964351541323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whereas reinforcement learning has been applied with success to a range of robotic control problems in complex, uncertain environments, reliance on extensive data - typically sourced from simulation environments - limits real-world deployment due to the domain gap between simulated and physical systems, coupled with limited real-world sample availability. We propose a novel method for sim-to-real transfer of reinforcement learning policies, based on a reinterpretation of neural style transfer from image processing to synthesise novel training data from unpaired unlabelled real world datasets. We employ a variational autoencoder to jointly learn self-supervised feature representations for style transfer and generate weakly paired source-target trajectories to improve physical realism of synthesised trajectories. We demonstrate the application of our approach based on the case study of robot cutting of unknown materials. Compared to baseline methods, including our previous work, CycleGAN, and conditional variational autoencoder-based time series translation, our approach achieves improved task completion time and behavioural stability with minimal real-world data. Our framework demonstrates robustness to geometric and material variation, and highlights the feasibility of policy adaptation in challenging contact-rich tasks where real-world reward information is unavailable.
- Abstract(参考訳): 複雑で不確実な環境でのさまざまなロボット制御問題に強化学習が適用されている一方で、シミュレーション環境から得られる広範なデータへの依存は、シミュレーションシステムと物理システムの間のドメインギャップと実際のサンプルの可用性の制限によって、現実のデプロイメントを制限する。
そこで本稿では, ニューラルネットワークによるニューラルネットワークの変換の解釈に基づいて, 実世界の未知のデータセットから, 新たな学習データを合成する, 強化学習ポリシーのシミュレート・トゥ・リアルな移行手法を提案する。
可変オートエンコーダを用いて、スタイル転送のための自己教師付き特徴表現を共同学習し、弱いペアのソース・ターゲット・トラジェクトリを生成し、合成されたトラジェクトリの物理的リアリズムを改善する。
本稿では,未知素材のロボット切断を事例として,本手法の適用例を示す。
これまでの研究、CycleGAN、条件付き変分オートエンコーダに基づく時系列翻訳などと比較して、本手法はタスク完了時間と行動安定性を最小限の現実世界データで改善する。
筆者らの枠組みは, 幾何学的および物質的変動に対する堅牢性を示し, 実世界の報奨情報が利用できないような, 接触に富んだ課題における政策適応の可能性を強調した。
関連論文リスト
- Neural Fidelity Calibration for Informative Sim-to-Real Adaptation [10.117298045153564]
深い強化学習は、アジャイルの移動とナビゲーションのスキルをシミュレータから現実世界にシームレスに移行することができる。
しかし、ドメインのランダム化や敵対的手法とシム・トゥ・リアルのギャップを埋めることは、しばしば政策の堅牢性を保証するために専門家の物理学知識を必要とする。
本研究では, 条件付きスコアベース拡散モデルを用いて, ロボットの動作中における物理係数と残留忠実度領域のキャリブレーションを行う新しいフレームワークであるNeural Fidelity(NFC)を提案する。
論文 参考訳(メタデータ) (2025-04-11T15:12:12Z) - An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation [13.15220962477623]
本稿では,シミュレーションと実環境のギャップを解消する新しいリアルタイムループフレームワークを提案する。
我々の研究の重要な貢献は、多様で代表的な実世界のデータの収集を促進する情報的コスト関数の設計である。
我々のアプローチは多機能なMJXプラットフォーム上で実装されており、我々のフレームワークは幅広いロボットシステムと互換性がある。
論文 参考訳(メタデータ) (2025-03-13T07:27:05Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。