論文の概要: Efficient Training of Generalizable Visuomotor Policies via Control-Aware Augmentation
- arxiv url: http://arxiv.org/abs/2401.09258v2
- Date: Fri, 21 Mar 2025 08:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:52:59.506125
- Title: Efficient Training of Generalizable Visuomotor Policies via Control-Aware Augmentation
- Title(参考訳): コントロール・アウェア・アジュメンテーションによる総合的ビジュモータ政策の効果的訓練
- Authors: Yinuo Zhao, Kun Wu, Tianjiao Yi, Zhiyuan Xu, Xiaozhu Ju, Zhengping Che, Chi Harold Liu, Jian Tang,
- Abstract要約: 既存のデータ拡張手法は、画像内のタスク関連情報を妨害し、性能を低下させる可能性がある。
本稿では,既存の手法を改良した汎用型ビズモータポリシーのための効率的なトレーニングフレームワークを提案する。
我々は,DMControl Generalization Benchmark,強化されたロボットマニピュレーション・ディトラクション・ベンチマーク,長期ドローダ・オープンタスクの3つの領域で実験を行った。
- 参考スコア(独自算出の注目度): 45.62430292728745
- License:
- Abstract: Improving generalization is one key challenge in embodied AI, where obtaining large-scale datasets across diverse scenarios is costly. Traditional weak augmentations, such as cropping and flipping, are insufficient for improving a model's performance in new environments. Existing data augmentation methods often disrupt task-relevant information in images, potentially degrading performance. To overcome these challenges, we introduce EAGLE, an efficient training framework for generalizable visuomotor policies that improves upon existing methods by (1) enhancing generalization by applying augmentation only to control-related regions identified through a self-supervised control-aware mask and (2) improving training stability and efficiency by distilling knowledge from an expert to a visuomotor student policy, which is then deployed to unseen environments without further fine-tuning. Comprehensive experiments on three domains, including the DMControl Generalization Benchmark, the enhanced Robot Manipulation Distraction Benchmark, and a long-sequential drawer-opening task, validate the effectiveness of our method.
- Abstract(参考訳): 一般化の改善は、さまざまなシナリオにわたる大規模なデータセットを取得するという、AIの具体化における重要な課題のひとつだ。
トリミングやフリップのような従来の弱い強化は、新しい環境でのモデルの性能を改善するには不十分である。
既存のデータ拡張手法は、しばしば画像内のタスク関連情報を妨害し、性能を低下させる可能性がある。
これらの課題を克服するために,本研究では,(1)自己管理型コントロール・アウェアマスクを通じて特定された制御関連領域のみに拡張を施すことによって,既存の手法を改良する,汎用可能なビジュモータ政策のための効率的なトレーニングフレームワークであるEAGLEを紹介し,(2)専門家から知識を抽出してトレーニングの安定性と効率を向上させるとともに,さらに微調整をすることなく,見知らぬ環境に展開する。
DMControl Generalization Benchmark, 強化されたロボットマニピュレーション・ディトラクション・ベンチマーク, 長期ドローダ・オープニングタスクを含む3つの領域の総合的な実験を行い, 本手法の有効性を検証した。
関連論文リスト
- Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [0.0]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Don't Touch What Matters: Task-Aware Lipschitz Data Augmentation for
Visual Reinforcement Learning [27.205521177841568]
視覚強化学習(RL)のためのタスク対応リプシッツデータ拡張(TLDA)を提案する。
TLDAは、大きなリプシッツ定数を持つタスク関連画素を明確に識別し、タスク関連画素のみを拡大する。
3つの異なるビジュアルコントロールベンチマークにおいて、従来の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-02-21T04:22:07Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual
Policies [87.78260740602674]
総合化は強化学習(RL)の長年にわたる課題である。
本研究では,ゼロショットの一般化を目標としたロバストなポリシー学習を,大規模な分布シフトを伴う視覚環境に対して検討する。
本稿では,2段階のイメージ拡張を利用して,ロバスト表現学習をポリシー最適化から切り離す,新たな自己経験的クローニング手法であるSECANTを提案する。
論文 参考訳(メタデータ) (2021-06-17T17:28:18Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Robust Deep Reinforcement Learning via Multi-View Information Bottleneck [7.188571996124112]
マルチビュー情報ボトルネック(MIB)の原理に基づく補助目標を提案する。
これにより、未来を予測的かつタスク非関連な気遣いに敏感な学習表現が促進される。
背景が自然な映像に置き換えられた場合でも、視覚制御の課題に対してSOTAの性能を発揮できることを実証します。
論文 参考訳(メタデータ) (2021-02-26T02:24:36Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。