論文の概要: Pre-trained Visual Representations Generalize Where it Matters in Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.12531v1
- Date: Tue, 16 Sep 2025 00:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.820333
- Title: Pre-trained Visual Representations Generalize Where it Matters in Model-Based Reinforcement Learning
- Title(参考訳): モデルベース強化学習における事前学習型視覚表現の一般化
- Authors: Scott Jones, Liyou Zhou, Sebastian W. Pattinson,
- Abstract要約: ビジュモータポリシー学習では、ロボットエージェントの制御ポリシーは視覚入力から直接導かれる。
事前学習型視覚モデル(PVM)を用いてポリシーネットワークに通知することで、モデルフリー強化学習(MFRL)の堅牢性を向上させる
厳しいシフトのシナリオでは、PVMはスクラッチからトレーニングされたベースラインモデルよりもはるかに優れたパフォーマンスを示します。
- 参考スコア(独自算出の注目度): 0.45880283710344066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In visuomotor policy learning, the control policy for the robotic agent is derived directly from visual inputs. The typical approach, where a policy and vision encoder are trained jointly from scratch, generalizes poorly to novel visual scene changes. Using pre-trained vision models (PVMs) to inform a policy network improves robustness in model-free reinforcement learning (MFRL). Recent developments in Model-based reinforcement learning (MBRL) suggest that MBRL is more sample-efficient than MFRL. However, counterintuitively, existing work has found PVMs to be ineffective in MBRL. Here, we investigate PVM's effectiveness in MBRL, specifically on generalization under visual domain shifts. We show that, in scenarios with severe shifts, PVMs perform much better than a baseline model trained from scratch. We further investigate the effects of varying levels of fine-tuning of PVMs. Our results show that partial fine-tuning can maintain the highest average task performance under the most extreme distribution shifts. Our results demonstrate that PVMs are highly successful in promoting robustness in visual policy learning, providing compelling evidence for their wider adoption in model-based robotic learning applications.
- Abstract(参考訳): ビジュモータポリシー学習では、ロボットエージェントの制御ポリシーは視覚入力から直接導かれる。
ポリシーとビジョンエンコーダをスクラッチから共同で訓練する典型的なアプローチは、新しい視覚的シーンの変化に対してあまり一般化しない。
事前学習された視覚モデル(PVM)を用いて、ポリシーネットワークに通知することで、モデルフリー強化学習(MFRL)の堅牢性を向上させる。
モデルベース強化学習(MBRL)の最近の進歩は、MBRLがMFRLよりもサンプリング効率が高いことを示唆している。
しかし、既存の研究で、PVMはMBRLでは効果がないことが判明している。
本稿では,MBRLにおけるPVMの有効性,特に視覚領域シフト下での一般化について検討する。
厳しいシフトのシナリオでは、PVMはスクラッチからトレーニングされたベースラインモデルよりもはるかに優れたパフォーマンスを示します。
さらに, 各種PVMの微調整レベルの影響について検討した。
この結果から,極端分布シフト下では,部分微調整がタスク性能の最高値を維持することが示唆された。
以上の結果から,PVMは視覚政策学習の堅牢性向上に成功しており,モデルベースのロボット学習アプリケーションに広く採用されていることを示す有力な証拠となっている。
関連論文リスト
- High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning [43.8114307203968]
最先端の大規模マルチモーダルモデル (LMM) は高解像度画像処理において課題に直面している。
本稿では,多ターン接地型政策最適化(MGPO)を提案する。
MGPOは、LMMが自動的にサブイメージをトリミングすることで、鍵となる視覚領域に反復的に焦点を合わせることを可能にする。
論文 参考訳(メタデータ) (2025-07-08T12:05:05Z) - The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning [8.36595587335589]
視覚強化学習法は、しばしば大量のデータを必要とする。
モデルベースRL(MBRL)は、プランニングによる効率的なデータ利用の潜在的なソリューションを提供する。
MBRLには現実世界のタスクの一般化機能が欠けている。
論文 参考訳(メタデータ) (2024-11-15T13:21:26Z) - Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model [2.9109581496560044]
特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。
我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。
実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:37:08Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。