Fugu-MT 論文翻訳(概要): Unsupervised Model-based Pre-training for Data-efficient Control from Pixels

論文の概要: Unsupervised Model-based Pre-training for Data-efficient Control from Pixels

arxiv url: http://arxiv.org/abs/2209.12016v1
Date: Sat, 24 Sep 2022 14:22:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 14:37:20.536964
Title: Unsupervised Model-based Pre-training for Data-efficient Control from Pixels
Title（参考訳）: データ効率制御のための教師なしモデルベース事前学習
Authors: Sai Rajeswar, Pietro Mazzaglia, Tim Verbelen, Alexandre Pich\'e, Bart Dhoedt, Aaron Courville, Alexandre Lacoste
Abstract要約: データ効率のよい視覚制御のための効果的な教師なしRL戦略を設計する。まず、教師なしRLを用いて収集したデータで事前訓練された世界モデルにより、将来のタスクへの適応が容易になることを示す。次に、エージェントの事前学習されたコンポーネントを効果的に再利用し、想像力の学習と計画を行うためのいくつかの設計選択を分析する。
参考スコア（独自算出の注目度）: 112.63440666617494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Controlling artificial agents from visual sensory data is an arduous task. Reinforcement learning (RL) algorithms can succeed in this but require large amounts of interactions between the agent and the environment. To alleviate the issue, unsupervised RL proposes to employ self-supervised interaction and learning, for adapting faster to future tasks. Yet, whether current unsupervised strategies improve generalization capabilities is still unclear, especially in visual control settings. In this work, we design an effective unsupervised RL strategy for data-efficient visual control. First, we show that world models pre-trained with data collected using unsupervised RL can facilitate adaptation for future tasks. Then, we analyze several design choices to adapt efficiently, effectively reusing the agents' pre-trained components, and learning and planning in imagination, with our hybrid planner, which we dub Dyna-MPC. By combining the findings of a large-scale empirical study, we establish an approach that strongly improves performance on the Unsupervised RL Benchmark, requiring 20$\times$ less data to match the performance of supervised methods. The approach also demonstrates robust performance on the Real-Word RL benchmark, hinting that the approach generalizes to noisy environments.
Abstract（参考訳）: 視覚感覚データから人工エージェントを制御するのは大変な作業だ。強化学習(RL)アルゴリズムはこれに成功するが、エージェントと環境の間の大量の相互作用を必要とする。問題を緩和するために、教師なしのRLは、将来のタスクに迅速に適応するために、自己教師付きインタラクションと学習を採用することを提案する。しかし、現在の教師なし戦略が一般化能力を改善するかどうかは、特に視覚的制御設定においてまだ不明である。本研究では、データ効率のよい視覚制御のための効率的な教師なしRL戦略を設計する。まず,教師なしrlを用いて収集したデータを用いて事前学習した世界モデルが,今後の課題への適応を容易にすることを示す。そこで我々は,Dyna-MPCをダブしたハイブリッドプランナーを用いて,エージェントの学習済みコンポーネントを効果的に再利用し,想像力で学習と計画を行う設計選択について分析した。大規模な実証研究の成果を組み合わせることで、教師なしRLベンチマークの性能を強く向上させるアプローチを確立し、教師付き手法の性能に合わせるために20$\times$以下のデータを必要とする。このアプローチはまた、Real-Word RLベンチマークで堅牢なパフォーマンスを示し、このアプローチがノイズの多い環境に一般化することを示唆している。

関連論文リスト

Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。 i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文参考訳（メタデータ） (2025-10-13T17:57:15Z)
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
Accelerating Goal-Conditioned RL Algorithms and Research [17.155006770675904]
自己指導型目標条件強化学習(GCRL)エージェントは、環境との非構造的相互作用において達成された目標から学習することで、新しい行動を発見する。これらの手法は、低速環境シミュレーションのデータ不足や安定したアルゴリズムの欠如により、同様の成功は得られていない。我々は、自制的なGCRLのためのベンチマーク(JaxGCRL)をリリースし、研究者は単一のGPU上で数百万の環境ステップでエージェントを訓練することができる。
論文参考訳（メタデータ） (2024-08-20T17:58:40Z)
World Models Increase Autonomy in Reinforcement Learning [6.151562278670799]
強化学習(Reinforcement Learning, RL)は、知的エージェントを訓練するための魅力的なパラダイムである。 MoReFreeエージェントは、リセット不要タスクを処理するために、探索とポリシー学習という2つの重要なメカニズムを適用する。環境報酬やデモンストレーションへのアクセスなしに、様々なリセットのないタスクに対して優れたデータ効率を示す。
論文参考訳（メタデータ） (2024-08-19T08:56:00Z)
Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文参考訳（メタデータ） (2024-05-22T13:39:33Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文参考訳（メタデータ） (2022-08-25T21:08:01Z)
URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。 URLBは2つのフェーズで構成されている。評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文参考訳（メタデータ） (2021-10-28T15:07:01Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文参考訳（メタデータ） (2021-09-27T12:42:05Z)
Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文参考訳（メタデータ） (2021-07-01T17:58:05Z)
Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文参考訳（メタデータ） (2020-12-21T18:28:17Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。