論文の概要: Distilling Conditional Diffusion Models for Offline Reinforcement
Learning through Trajectory Stitching
- arxiv url: http://arxiv.org/abs/2402.00807v1
- Date: Thu, 1 Feb 2024 17:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:14:40.382289
- Title: Distilling Conditional Diffusion Models for Offline Reinforcement
Learning through Trajectory Stitching
- Title(参考訳): 軌道縫合によるオフライン強化学習のための蒸留条件拡散モデル
- Authors: Shangzhe Li and Xinhua Zhang
- Abstract要約: 本稿では,データ拡張に基づく知識蒸留手法を提案する。
高反射軌道は条件付き拡散モデルから生成され、新しい縫合アルゴリズムにより元の軌道とブレンドされる。
結果として得られたデータセットを行動的クローニングに適用することにより、D4RLベンチマークの詳細な生成プランナに匹敵するサイズがはるかに小さい、あるいははるかに小さい、学習の浅いポリシが実現される。
- 参考スコア(独自算出の注目度): 14.295558685860941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models have recently emerged as an effective approach to
offline reinforcement learning. However, their large model size poses
challenges in computation. We address this issue by proposing a knowledge
distillation method based on data augmentation. In particular, high-return
trajectories are generated from a conditional diffusion model, and they are
blended with the original trajectories through a novel stitching algorithm that
leverages a new reward generator. Applying the resulting dataset to behavioral
cloning, the learned shallow policy whose size is much smaller outperforms or
nearly matches deep generative planners on several D4RL benchmarks.
- Abstract(参考訳): オフライン強化学習の効果的なアプローチとして、深層生成モデルが最近登場している。
しかし、その大きなモデルサイズは計算に困難をもたらす。
データ拡張に基づく知識蒸留法を提案することでこの問題に対処する。
特に, 条件付き拡散モデルからハイリターン軌道が生成され, 新たな報酬発生器を利用した新しい縫合アルゴリズムにより, 元の軌道とブレンドされる。
結果として得られたデータセットを行動的クローニングに適用することにより、D4RLベンチマークの詳細な生成プランナに匹敵するサイズがはるかに小さい、あるいははるかに小さい、学習の浅いポリシが実現される。
関連論文リスト
- Hybrid Reinforcement Learning from Offline Observation Alone [19.14864618744221]
エージェントがオフラインデータとオンラインインタラクティブアクセスの両方にアクセス可能なハイブリッド強化学習環境について検討する。
リセットモデルを利用するアルゴリズムの性能を確実に一致させるトレースモデル設定における最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T13:34:05Z) - ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である
本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。
ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Causal Action Influence Aware Counterfactual Data Augmentation [23.949113120847507]
我々は,オンライン環境のインタラクションにアクセスすることなく,固定データセットから合成トランジションを生成可能なデータ拡張手法であるCAIACを提案する。
因果的影響を定量化するための原理的手法を利用することで、状態空間の$itaction$-unffected部分を交換することで、反ファクト的推論を行うことができる。
これにより、分散シフトに対するオフライン学習アルゴリズムの堅牢性が大幅に向上する。
論文 参考訳(メタデータ) (2024-05-29T09:19:50Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Causal Decision Transformer for Recommender Systems via Offline
Reinforcement Learning [23.638418776700522]
我々は、リコメンデータシステムのための因果決定変換器(CDT4Rec)という新しいモデルを提案する。
CDT4Recはオフラインの強化学習システムで、オンラインインタラクションではなくデータセットから学習することができる。
本モデルの有効性と優位性を示すため、6つの実世界のオフラインデータセットと1つのオンラインシミュレータの実験を行った。
論文 参考訳(メタデータ) (2023-04-17T00:05:52Z) - Synthetic Experience Replay [48.601879260071655]
エージェントの収集した経験を柔軟にアップサンプリングするための拡散に基づくアプローチであるSynthetic Experience Replay(SynthER)を提案する。
SynthERはオフラインおよびオンライン設定におけるRLエージェントのトレーニングに有効な方法であることを示す。
我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると信じている。
論文 参考訳(メタデータ) (2023-03-12T09:10:45Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。