論文の概要: Oracle-Guided Masked Contrastive Reinforcement Learning for Visuomotor Policies
- arxiv url: http://arxiv.org/abs/2510.05692v1
- Date: Tue, 07 Oct 2025 08:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.169167
- Title: Oracle-Guided Masked Contrastive Reinforcement Learning for Visuomotor Policies
- Title(参考訳): ビジュモータ政策のためのOracle主導のマズード・コントラスト強化学習
- Authors: Yuhang Zhang, Jiaping Xiao, Chao Yan, Mir Feroskhan,
- Abstract要約: ビジュモータポリシーを学習するための一般的なアプローチは、高次元の視覚的観察を直接アクションコマンドにマッピングするために強化学習を採用することである。
我々はOracle-Guided Masked Contrastive Reinforcement Learning (OMC-RL)を提案する。
- 参考スコア(独自算出の注目度): 9.663452274930643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prevailing approach for learning visuomotor policies is to employ reinforcement learning to map high-dimensional visual observations directly to action commands. However, the combination of high-dimensional visual inputs and agile maneuver outputs leads to long-standing challenges, including low sample efficiency and significant sim-to-real gaps. To address these issues, we propose Oracle-Guided Masked Contrastive Reinforcement Learning (OMC-RL), a novel framework designed to improve the sample efficiency and asymptotic performance of visuomotor policy learning. OMC-RL explicitly decouples the learning process into two stages: an upstream representation learning stage and a downstream policy learning stage. In the upstream stage, a masked Transformer module is trained with temporal modeling and contrastive learning to extract temporally-aware and task-relevant representations from sequential visual inputs. After training, the learned encoder is frozen and used to extract visual representations from consecutive frames, while the Transformer module is discarded. In the downstream stage, an oracle teacher policy with privileged access to global state information supervises the agent during early training to provide informative guidance and accelerate early policy learning. This guidance is gradually reduced to allow independent exploration as training progresses. Extensive experiments in simulated and real-world environments demonstrate that OMC-RL achieves superior sample efficiency and asymptotic policy performance, while also improving generalization across diverse and perceptually complex scenarios.
- Abstract(参考訳): ビジュモータポリシーを学習するための一般的なアプローチは、高次元の視覚的観察を直接アクションコマンドにマッピングするために強化学習を採用することである。
しかし、高次元の視覚入力とアジャイルの操作出力の組み合わせは、サンプル効率の低下や、相当なシミュレート・トゥ・リアルのギャップなど、長年にわたる課題につながります。
これらの課題に対処するため,我々はOracle-Guided Masked Contrastive Reinforcement Learning (OMC-RL)を提案する。
OMC-RLは、学習プロセスを、上流の表現学習段階と下流の政策学習段階の2つの段階に明確に分離する。
上流では、マスク付きトランスフォーマーモジュールが時間的モデリングとコントラスト学習で訓練され、逐次視覚入力から時間的認識およびタスク関連表現を抽出する。
トレーニング後、学習したエンコーダは凍結され、連続したフレームから視覚的表現を抽出するために使用され、トランスフォーマーモジュールは破棄される。
下流の段階では、グローバルステート情報に特権アクセス可能な託宣教師政策が早期訓練中にエージェントを監督し、情報指導を行い、早期政策学習を加速する。
このガイダンスは、訓練が進むにつれて独立した探索を可能にするために徐々に縮小される。
シミュレーションおよび実世界の環境における広範囲な実験により、OMC-RLはより優れたサンプル効率と漸近的政策性能を達成し、また多様かつ知覚的に複雑なシナリオにおける一般化を改善した。
関連論文リスト
- Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - Learning Future Representation with Synthetic Observations for Sample-efficient Reinforcement Learning [12.277005054008017]
視覚強化学習(RL)では、上流表現学習が下流政策学習の効果を決定づける。
補助訓練データを充実させることで,RLの補助表現学習を改善する。
本研究では、将来の情報を含む可能性のある観測を合成するためのトレーニング不要な手法を提案する。
残りの合成観測と実観測は、クラスタリングに基づく時間的関連タスクを達成する補助データとして機能する。
論文 参考訳(メタデータ) (2024-05-20T02:43:04Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。