論文の概要: Contrastive Diffuser: Planning Towards High Return States via
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2402.02772v2
- Date: Tue, 6 Feb 2024 17:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 11:12:28.122854
- Title: Contrastive Diffuser: Planning Towards High Return States via
Contrastive Learning
- Title(参考訳): コントラストディフューザ:コントラスト学習による高戻り状態に向けた計画
- Authors: Yixiang Shan, Zhengbang Zhu, Ting Long, Qifan Liang, Yi Chang, Weinan
Zhang, Liang Yin
- Abstract要約: いくつかの拡散に基づく手法は、任意の分布に対する拡散のモデリング能力をうまく活用している。
生成したトラジェクトリの状態を高リターン状態へ引き出すための逆コントラスト機構を考案したCDiffuserと呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 25.89101360711152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying diffusion models in reinforcement learning for long-term planning
has gained much attention recently. Several diffusion-based methods have
successfully leveraged the modeling capabilities of diffusion for arbitrary
distributions. These methods generate subsequent trajectories for planning and
have demonstrated significant improvement. However, these methods are limited
by their plain base distributions and their overlooking of the diversity of
samples, in which different states have different returns. They simply leverage
diffusion to learn the distribution of offline dataset, generate the
trajectories whose states share the same distribution with the offline dataset.
As a result, the probability of these models reaching the high-return states is
largely dependent on the dataset distribution. Even equipped with the guidance
model, the performance is still suppressed. To address these limitations, in
this paper, we propose a novel method called CDiffuser, which devises a return
contrast mechanism to pull the states in generated trajectories towards
high-return states while pushing them away from low-return states to improve
the base distribution. Experiments on 14 commonly used D4RL benchmarks
demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): 近年,長期計画のための強化学習における拡散モデルの適用が注目されている。
いくつかの拡散法は任意の分布に対する拡散のモデリング能力をうまく活用している。
これらの手法は計画のための後続の軌道を生成し、著しい改善を示している。
しかし、これらの方法は、単純な基底分布と、異なる状態が異なるリターンを持つサンプルの多様性を見渡すことによって制限される。
彼らは単に拡散を利用してオフラインデータセットの分布を学習し、その状態がオフラインデータセットと同じ分布を共有するトラジェクトリを生成する。
その結果、これらのモデルが高リターン状態に達する確率は、データセットの分布に大きく依存する。
誘導モデルも装備されているが、性能は抑えられている。
そこで本稿では,これらの制約に対処するために,生成した軌道の状態から高リターン状態へ引き出す戻りコントラスト機構を考案し,低リターン状態から遠ざけてベース分布を改善するcdiffuserという新しい手法を提案する。
提案手法の有効性を実証する14種類のd4rlベンチマーク実験を行った。
関連論文リスト
- Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Prioritized Trajectory Replay: A Replay Memory for Data-driven
Reinforcement Learning [52.49786369812919]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文 参考訳(メタデータ) (2023-06-27T14:29:44Z) - Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory
Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。
この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。
私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文 参考訳(メタデータ) (2023-06-22T17:58:02Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。