論文の概要: Variable-Speed Teaching-Playback as Real-World Data Augmentation for Imitation Learning
- arxiv url: http://arxiv.org/abs/2412.03252v1
- Date: Wed, 04 Dec 2024 11:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:06:43.205976
- Title: Variable-Speed Teaching-Playback as Real-World Data Augmentation for Imitation Learning
- Title(参考訳): 模擬学習のための実世界のデータ拡張としての可変高速学習プレイバック
- Authors: Nozomu Masuya, Hiroshi Sato, Koki Yamane, Takuya Kusume, Sho Sakaino, Toshiaki Tsuji,
- Abstract要約: 本稿では、実世界のデータセットの利点を保ちながら、力制御に適用可能な新しいデータ拡張法を提案する。
位置力制御を備えた模擬学習法を用いて、双方向制御に基づく模擬学習実験を行った。
その結果, 実世界の反応速度の変化により, 成功率の最大55%が向上した。
- 参考スコア(独自算出の注目度): 6.277546031193622
- License:
- Abstract: Because imitation learning relies on human demonstrations in hard-to-simulate settings, the inclusion of force control in this method has resulted in a shortage of training data, even with a simple change in speed. Although the field of data augmentation has addressed the lack of data, conventional methods of data augmentation for robot manipulation are limited to simulation-based methods or downsampling for position control. This paper proposes a novel method of data augmentation that is applicable to force control and preserves the advantages of real-world datasets. We applied teaching-playback at variable speeds as real-world data augmentation to increase both the quantity and quality of environmental reactions at variable speeds. An experiment was conducted on bilateral control-based imitation learning using a method of imitation learning equipped with position-force control. We evaluated the effect of real-world data augmentation on two tasks, pick-and-place and wiping, at variable speeds, each from two human demonstrations at fixed speed. The results showed a maximum 55% increase in success rate from a simple change in speed of real-world reactions and improved accuracy along the duration/frequency command by gathering environmental reactions at variable speeds.
- Abstract(参考訳): 模倣学習は、シミュレーションの難しい環境での人間の実演に依存しているため、この手法に力制御を組み込むことで、単純な速度変化であっても、トレーニングデータの不足が生じている。
データ拡張の分野はデータの不足に対処しているが、ロボット操作のための従来のデータ拡張方法は、シミュレーションベースの方法や位置制御のためのダウンサンプリングに限られている。
本稿では、実世界のデータセットの利点を保ちながら、力制御に適用可能な新しいデータ拡張法を提案する。
変動速度における環境反応の量と質を両立させるために,実世界のデータ拡張として,可変速度での教示プレイバックを適用した。
位置力制御を備えた模擬学習法を用いて,二元的制御に基づく模倣学習実験を行った。
実世界のデータ拡張が2つのタスク,すなわちピック・アンド・プレイス・アンド・プレイス・ウィッピングに与える影響を,定速での2つの人間の実演から評価した。
その結果、実世界の反応速度の単純な変化による成功率の最大55%増加と、環境反応を変動速度で収集することで、持続時間/周波数指令に沿った精度の向上が得られた。
関連論文リスト
- Improving generalization of robot locomotion policies via Sharpness-Aware Reinforcement Learning [0.5399800035598186]
微分可能なシミュレータは、正確な勾配によるサンプル効率の改善を提供するが、接触豊富な環境では不安定である。
本稿では,勾配に基づく強化学習アルゴリズムにシャープネスを考慮した最適化を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-29T14:25:54Z) - Self-Supervised Learning of Grasping Arbitrary Objects On-the-Move [8.445514342786579]
本研究では3つの完全畳み込みニューラルネットワーク(FCN)モデルを導入し,視覚入力から静的グリッププリミティブ,動的グリッププリミティブ,残留移動速度誤差を予測する。
提案手法は高い把握精度とピック・アンド・プレイス効率を実現した。
論文 参考訳(メタデータ) (2024-11-15T02:59:16Z) - Sample-efficient Imitative Multi-token Decision Transformer for Real-world Driving [18.34685506480288]
我々はSimDT(SimDT)を提案する。
SimDTでは、マルチトークン予測、オンライン模倣学習パイプライン、シーケンスモデリング強化学習への優先的なエクスペリエンスリプレイが導入されている。
結果は、Waymaxベンチマークのオープンループとクローズループ設定の両方で、人気のある模倣と強化学習アルゴリズムを上回る。
論文 参考訳(メタデータ) (2024-06-18T14:27:14Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - Blur Interpolation Transformer for Real-World Motion from Blur [52.10523711510876]
本稿では, ボケの時間的相関を解き明かすために, 符号化されたブラー変換器(BiT)を提案する。
マルチスケール残留スウィン変圧器ブロックに基づいて、両端の時間的監督と時間対称なアンサンブル戦略を導入する。
さらに,1対1のぼやけたビデオペアの最初の実世界のデータセットを収集するハイブリッドカメラシステムを設計する。
論文 参考訳(メタデータ) (2022-11-21T13:10:10Z) - Output Feedback Tube MPC-Guided Data Augmentation for Robust, Efficient
Sensorimotor Policy Learning [49.05174527668836]
シミュレーション学習(IL)は、計算コストのかかるモデルベースセンシングと制御アルゴリズムによって提供されるデモから、計算効率のよいセンセータポリシーを生成することができる。
本研究では,ILと出力フィードバック頑健な管モデル予測コントローラを組み合わせることで,実演とデータ拡張戦略を併用し,ニューラルネットワークに基づくセンサモジュレータポリシーを効率的に学習する。
提案手法は,従来のIL法と比較して,実演効率が2桁向上した1つの実演から,ロバストなビズモータポリシーを学習できることを数値的に示す。
論文 参考訳(メタデータ) (2022-10-18T19:59:17Z) - Perceiving the World: Question-guided Reinforcement Learning for
Text-based Games [64.11746320061965]
本稿では,環境に関する質問に答えることで,タスクやプーンアクションを自動的に分解する世界認識モジュールを提案する。
次に、強化学習から言語学習を分離する2段階学習フレームワークを提案し、サンプル効率をさらに向上させる。
論文 参考訳(メタデータ) (2022-03-20T04:23:57Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Simulation-based reinforcement learning for real-world autonomous driving [9.773015744446067]
実物大の車両を制御する駆動システムを実現するために,シミュレーションにおいて強化学習を用いる。
駆動ポリシは、単一のカメラからのRGBイメージと、それらのセマンティックセグメンテーションを入力として取り込む。
主に合成データを使用し、ラベル付き実世界のデータはセグメンテーションネットワークのトレーニングにのみ現れる。
論文 参考訳(メタデータ) (2019-11-29T00:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。