論文の概要: Oracle-Guided Masked Contrastive Reinforcement Learning for Visuomotor Policies
- arxiv url: http://arxiv.org/abs/2510.05692v1
- Date: Tue, 07 Oct 2025 08:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.169167
- Title: Oracle-Guided Masked Contrastive Reinforcement Learning for Visuomotor Policies
- Title(参考訳): ビジュモータ政策のためのOracle主導のマズード・コントラスト強化学習
- Authors: Yuhang Zhang, Jiaping Xiao, Chao Yan, Mir Feroskhan,
- Abstract要約: ビジュモータポリシーを学習するための一般的なアプローチは、高次元の視覚的観察を直接アクションコマンドにマッピングするために強化学習を採用することである。
我々はOracle-Guided Masked Contrastive Reinforcement Learning (OMC-RL)を提案する。
- 参考スコア(独自算出の注目度): 9.663452274930643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prevailing approach for learning visuomotor policies is to employ reinforcement learning to map high-dimensional visual observations directly to action commands. However, the combination of high-dimensional visual inputs and agile maneuver outputs leads to long-standing challenges, including low sample efficiency and significant sim-to-real gaps. To address these issues, we propose Oracle-Guided Masked Contrastive Reinforcement Learning (OMC-RL), a novel framework designed to improve the sample efficiency and asymptotic performance of visuomotor policy learning. OMC-RL explicitly decouples the learning process into two stages: an upstream representation learning stage and a downstream policy learning stage. In the upstream stage, a masked Transformer module is trained with temporal modeling and contrastive learning to extract temporally-aware and task-relevant representations from sequential visual inputs. After training, the learned encoder is frozen and used to extract visual representations from consecutive frames, while the Transformer module is discarded. In the downstream stage, an oracle teacher policy with privileged access to global state information supervises the agent during early training to provide informative guidance and accelerate early policy learning. This guidance is gradually reduced to allow independent exploration as training progresses. Extensive experiments in simulated and real-world environments demonstrate that OMC-RL achieves superior sample efficiency and asymptotic policy performance, while also improving generalization across diverse and perceptually complex scenarios.
- Abstract(参考訳): ビジュモータポリシーを学習するための一般的なアプローチは、高次元の視覚的観察を直接アクションコマンドにマッピングするために強化学習を採用することである。
しかし、高次元の視覚入力とアジャイルの操作出力の組み合わせは、サンプル効率の低下や、相当なシミュレート・トゥ・リアルのギャップなど、長年にわたる課題につながります。
これらの課題に対処するため,我々はOracle-Guided Masked Contrastive Reinforcement Learning (OMC-RL)を提案する。
OMC-RLは、学習プロセスを、上流の表現学習段階と下流の政策学習段階の2つの段階に明確に分離する。
上流では、マスク付きトランスフォーマーモジュールが時間的モデリングとコントラスト学習で訓練され、逐次視覚入力から時間的認識およびタスク関連表現を抽出する。
トレーニング後、学習したエンコーダは凍結され、連続したフレームから視覚的表現を抽出するために使用され、トランスフォーマーモジュールは破棄される。
下流の段階では、グローバルステート情報に特権アクセス可能な託宣教師政策が早期訓練中にエージェントを監督し、情報指導を行い、早期政策学習を加速する。
このガイダンスは、訓練が進むにつれて独立した探索を可能にするために徐々に縮小される。
シミュレーションおよび実世界の環境における広範囲な実験により、OMC-RLはより優れたサンプル効率と漸近的政策性能を達成し、また多様かつ知覚的に複雑なシナリオにおける一般化を改善した。
関連論文リスト
- Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。
セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。
本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文 参考訳(メタデータ) (2025-12-04T16:54:41Z) - Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - ImitDiff: Transferring Foundation-Model Priors for Distraction Robust Visuomotor Policy [39.06557194970261]
ImitDiff(イミットディフ)は、微細な意味論によって導かれる拡散に基づく模倣学習政策である。
提案手法は,高レベルの命令を画素レベルの視覚意味マスクに変換する。
ImitDiffは、新しいオブジェクトや視覚的邪魔を含むゼロショット設定において、強力な一般化を示している。
論文 参考訳(メタデータ) (2025-02-11T14:03:57Z) - Learning Future Representation with Synthetic Observations for Sample-efficient Reinforcement Learning [12.277005054008017]
視覚強化学習(RL)では、上流表現学習が下流政策学習の効果を決定づける。
補助訓練データを充実させることで,RLの補助表現学習を改善する。
本研究では、将来の情報を含む可能性のある観測を合成するためのトレーニング不要な手法を提案する。
残りの合成観測と実観測は、クラスタリングに基づく時間的関連タスクを達成する補助データとして機能する。
論文 参考訳(メタデータ) (2024-05-20T02:43:04Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。