Fugu-MT 論文翻訳(概要): The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning

論文の概要: The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2411.10175v1
Date: Fri, 15 Nov 2024 13:21:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.053941
Title: The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning
Title（参考訳）: モデルベース強化学習における事前学習型視覚表現の予期せぬ効果
Authors: Moritz Schneider, Robert Krug, Narunas Vaskevicius, Luigi Palmieri, Joschka Boedecker,
Abstract要約: 視覚強化学習法は、しばしば大量のデータを必要とする。モデルベースRL(MBRL)は、プランニングによる効率的なデータ利用の潜在的なソリューションを提供する。 MBRLには現実世界のタスクの一般化機能が欠けている。
参考スコア（独自算出の注目度）: 8.36595587335589
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Reinforcement Learning (RL) methods often require extensive amounts of data. As opposed to model-free RL, model-based RL (MBRL) offers a potential solution with efficient data utilization through planning. Additionally, RL lacks generalization capabilities for real-world tasks. Prior work has shown that incorporating pre-trained visual representations (PVRs) enhances sample efficiency and generalization. While PVRs have been extensively studied in the context of model-free RL, their potential in MBRL remains largely unexplored. In this paper, we benchmark a set of PVRs on challenging control tasks in a model-based RL setting. We investigate the data efficiency, generalization capabilities, and the impact of different properties of PVRs on the performance of model-based agents. Our results, perhaps surprisingly, reveal that for MBRL current PVRs are not more sample efficient than learning representations from scratch, and that they do not generalize better to out-of-distribution (OOD) settings. To explain this, we analyze the quality of the trained dynamics model. Furthermore, we show that data diversity and network architecture are the most important contributors to OOD generalization performance.
Abstract（参考訳）: 視覚強化学習(RL)法は、しばしば大量のデータを必要とする。モデルフリーRLとは対照的に、モデルベースRL(MBRL)はプランニングによる効率的なデータ利用の潜在的なソリューションを提供する。さらに、RLには現実世界のタスクの一般化機能が欠けている。以前の研究では、事前学習された視覚表現(PVR)を組み込むことで、サンプル効率と一般化が促進されることが示されている。 PVRはモデルのないRLの文脈で広く研究されているが、MBRLにおけるそのポテンシャルはほとんど解明されていない。本稿では,モデルベースRL設定における制御課題に対するPVRセットのベンチマークを行う。データ効率,一般化能力,PVRの特性の違いがモデルベースエージェントの性能に及ぼす影響について検討する。我々の結果は、おそらく驚くべきことに、MBRLの現在のPVRは、スクラッチから表現を学習するよりもサンプリング効率が良くないこと、そして、アウト・オブ・ディストリビューション(OOD)設定よりも一般化されていないことを明らかにしている。これを説明するために、トレーニングされた力学モデルの品質を分析する。さらに,データ多様性とネットワークアーキテクチャがOOD一般化性能の最も重要な貢献者であることを示す。

関連論文リスト

Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme [36.34443944082215]
本研究は、視覚モデル(VLM)における強化学習(RL)のための透明でゼロスクラッチなフレームワークを導入する。複数のモデルとデータセットにまたがって検証される、最小限の機能を備えた4ステップパイプラインを提供する。さらに、トレーニング力学と反射行動を評価するために、標準化された評価手法を提案する。
論文参考訳（メタデータ） (2025-04-03T13:53:28Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
BECAUSE: Bilinear Causal Representation for Generalizable Offline Model-based Reinforcement Learning [39.090104460303415]
オフラインモデルベース強化学習(MBRL)は、事前コンパイルされたデータセットを使用してモデルとポリシーを学ぶことにより、データ効率を向上させる。本稿は、このミスマッチの主な原因を、オフラインデータに存在する根底にある共同設立者から特定する。両状態の因果表現をキャプチャするアルゴリズムである textbfBilintextbfEar textbfCAUSal rtextbfEpresentation (BECAUSE) を導入する。
論文参考訳（メタデータ） (2024-07-15T17:59:23Z)
Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文参考訳（メタデータ） (2023-02-14T16:14:39Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文参考訳（メタデータ） (2022-08-25T21:08:01Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)
Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文参考訳（メタデータ） (2022-01-28T13:07:11Z)
Sample-efficient Reinforcement Learning Representation Learning with Curiosity Contrastive Forward Dynamics Model [17.41484483119774]
本稿では、CCFDM(Curiosity Contrastive Forward Dynamics Model)の学習フレームワークを検討し、よりサンプル効率の高い強化学習(RL)を実現する。 CCFDMはフォワードダイナミクスモデル(FDM)を導入し、その深層畳み込みニューラルネットワークベースのイメージエンコーダ(IE)をトレーニングするためのコントラスト学習を実行するトレーニング中、CFDMはFDM予測誤差に基づいて生成された本質的な報酬を提供し、RLエージェントの好奇性を高めて探索を改善する。
論文参考訳（メタデータ） (2021-03-15T10:08:52Z)
Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文参考訳（メタデータ） (2020-12-21T18:28:17Z)
Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文参考訳（メタデータ） (2020-12-08T18:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。