論文の概要: Synthetic Data is Sufficient for Zero-Shot Visual Generalization from Offline Data
- arxiv url: http://arxiv.org/abs/2508.12356v1
- Date: Sun, 17 Aug 2025 13:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.701626
- Title: Synthetic Data is Sufficient for Zero-Shot Visual Generalization from Offline Data
- Title(参考訳): オフラインデータからのゼロショット視覚一般化のための合成データ
- Authors: Ahmet H. Güzel, Ilija Bogunovic, Jack Parker-Holder,
- Abstract要約: オフラインデータで訓練されたポリシーは、様々な州への限られた露出のために、しばしば一般化に苦しむ。
これにより、見えない環境に一般化可能な堅牢なエージェントのトレーニングにおいて、視覚ベースのオフラインデータを活用することが難しくなる。
2段階のプロセスを提案し、まず最初に収集したオフラインデータを拡大し、多様性を導入してゼロショット一般化を改善し、次に拡散モデルを用いて遅延空間に付加的なデータを生成する。
- 参考スコア(独自算出の注目度): 22.840912154067325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline reinforcement learning (RL) offers a promising framework for training agents using pre-collected datasets without the need for further environment interaction. However, policies trained on offline data often struggle to generalise due to limited exposure to diverse states. The complexity of visual data introduces additional challenges such as noise, distractions, and spurious correlations, which can misguide the policy and increase the risk of overfitting if the training data is not sufficiently diverse. Indeed, this makes it challenging to leverage vision-based offline data in training robust agents that can generalize to unseen environments. To solve this problem, we propose a simple approach generating additional synthetic training data. We propose a two-step process, first augmenting the originally collected offline data to improve zero-shot generalization by introducing diversity, then using a diffusion model to generate additional data in latent space. We test our method across both continuous action spaces (Visual D4RL) and discrete action spaces (Procgen), demonstrating that it significantly improves generalization without requiring any algorithmic changes to existing model-free offline RL methods. We show that our method not only increases the diversity of the training data but also significantly reduces the generalization gap at test time while maintaining computational efficiency. We believe this approach could fuel additional progress in generating synthetic data to train more general agents in the future.
- Abstract(参考訳): オフライン強化学習(RL)は、さらなる環境相互作用を必要とせずに、事前にコンパイルされたデータセットを使用してエージェントをトレーニングするための有望なフレームワークを提供する。
しかし、オフラインデータで訓練されたポリシーは、様々な州への限られた露出のため、一般化に苦慮することが多い。
視覚データの複雑さは、ノイズ、気晴らし、刺激的な相関などの追加の課題を導入し、トレーニングデータが十分に多様でない場合、ポリシーを誤解し過度に適合するリスクを増大させる。
実際にこれは、目に見えない環境に一般化可能な堅牢なエージェントのトレーニングにおいて、視覚ベースのオフラインデータを活用することを困難にしている。
そこで本研究では,新たに合成学習データを生成する簡単な手法を提案する。
2段階のプロセスを提案し、まず最初に収集したオフラインデータを拡大し、多様性を導入してゼロショット一般化を改善し、次に拡散モデルを用いて遅延空間に付加的なデータを生成する。
提案手法は連続的な行動空間(Visual D4RL)と離散的な行動空間(Procgen)の両方でテストし、既存のモデルなしオフラインRL法にアルゴリズム的な変更を加えることなく、一般化を大幅に改善することを示した。
また,本手法はトレーニングデータの多様性を増大させるだけでなく,計算効率を保ちながら,テスト時の一般化ギャップを大幅に減少させることを示した。
このアプローチは、将来的にはより一般的なエージェントを訓練するための合成データの生成にさらなる進歩をもたらす可能性があると考えています。
関連論文リスト
- Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
ラベルなしのオフライン軌道データは、効率的な探索戦略を学ぶために利用することができる。
提案手法は,42の長軸,スパース・リワードタスクからなるスイートにおいて,従来戦略よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Zero-Shot Generalization of Vision-Based RL Without Data Augmentation [11.820012065797917]
視覚に基づく強化学習(RL)エージェントを新しい環境に一般化することは、依然として困難かつオープンな課題である。
本稿では、ゼロショットの一般化に向けて、標準のオフポリチックRLの上に構築されたアソシエーション・ラテント・ディスタン・アングルメント(ALDA)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-09T21:14:09Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Are Synthetic Time-series Data Really not as Good as Real Data? [29.852306720544224]
時系列データは、データ品質の問題、バイアスと脆弱性、一般化の問題に起因する制限を提示する。
InfoBoostは、時系列表現学習機能を備えた、高度に汎用的なクロスドメインデータ合成フレームワークである。
本研究では,実データを用いて学習したモデルの性能を上回りながら,実データを必要としないモデルトレーニングを可能にする合成データに基づく手法を開発した。
論文 参考訳(メタデータ) (2024-02-01T13:59:04Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。