Fugu-MT 論文翻訳(概要): Contrastive Diffuser: Planning Towards High Return States via Contrastive Learning

論文の概要: Contrastive Diffuser: Planning Towards High Return States via Contrastive Learning

arxiv url: http://arxiv.org/abs/2402.02772v2
Date: Tue, 6 Feb 2024 17:49:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 11:12:28.122854
Title: Contrastive Diffuser: Planning Towards High Return States via Contrastive Learning
Title（参考訳）: コントラストディフューザ:コントラスト学習による高戻り状態に向けた計画
Authors: Yixiang Shan, Zhengbang Zhu, Ting Long, Qifan Liang, Yi Chang, Weinan Zhang, Liang Yin
Abstract要約: いくつかの拡散に基づく手法は、任意の分布に対する拡散のモデリング能力をうまく活用している。生成したトラジェクトリの状態を高リターン状態へ引き出すための逆コントラスト機構を考案したCDiffuserと呼ばれる新しい手法を提案する。
参考スコア（独自算出の注目度）: 25.89101360711152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Applying diffusion models in reinforcement learning for long-term planning has gained much attention recently. Several diffusion-based methods have successfully leveraged the modeling capabilities of diffusion for arbitrary distributions. These methods generate subsequent trajectories for planning and have demonstrated significant improvement. However, these methods are limited by their plain base distributions and their overlooking of the diversity of samples, in which different states have different returns. They simply leverage diffusion to learn the distribution of offline dataset, generate the trajectories whose states share the same distribution with the offline dataset. As a result, the probability of these models reaching the high-return states is largely dependent on the dataset distribution. Even equipped with the guidance model, the performance is still suppressed. To address these limitations, in this paper, we propose a novel method called CDiffuser, which devises a return contrast mechanism to pull the states in generated trajectories towards high-return states while pushing them away from low-return states to improve the base distribution. Experiments on 14 commonly used D4RL benchmarks demonstrate the effectiveness of our proposed method.
Abstract（参考訳）: 近年,長期計画のための強化学習における拡散モデルの適用が注目されている。いくつかの拡散法は任意の分布に対する拡散のモデリング能力をうまく活用している。これらの手法は計画のための後続の軌道を生成し、著しい改善を示している。しかし、これらの方法は、単純な基底分布と、異なる状態が異なるリターンを持つサンプルの多様性を見渡すことによって制限される。彼らは単に拡散を利用してオフラインデータセットの分布を学習し、その状態がオフラインデータセットと同じ分布を共有するトラジェクトリを生成する。その結果、これらのモデルが高リターン状態に達する確率は、データセットの分布に大きく依存する。誘導モデルも装備されているが、性能は抑えられている。そこで本稿では,これらの制約に対処するために,生成した軌道の状態から高リターン状態へ引き出す戻りコントラスト機構を考案し,低リターン状態から遠ざけてベース分布を改善するcdiffuserという新しい手法を提案する。提案手法の有効性を実証する14種類のd4rlベンチマーク実験を行った。

関連論文リスト

SR-Reward: Taking The Path More Traveled [8.818066308133108]
オフラインでのデモンストレーションから報酬関数を直接学習する新しい手法を提案する。従来の逆強化学習(IRL)とは異なり,本手法は学習者の方針から報酬関数を分離する。 textitSR-Rewardと呼ばれる我々の報酬関数は、後継表現(SR)を利用して、実証ポリシーと遷移ダイナミクスの下で期待される将来の状態の訪問に基づいて状態をエンコードする。
論文参考訳（メタデータ） (2025-01-04T16:21:10Z)
Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文参考訳（メタデータ） (2024-05-29T01:49:20Z)
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-06T17:58:14Z)
Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文参考訳（メタデータ） (2023-09-12T20:58:21Z)
Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning [52.49786369812919]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。 TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。 D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文参考訳（メタデータ） (2023-06-27T14:29:44Z)
Harnessing Mixed Offline Reinforcement Learning Datasets via Trajectory Weighting [29.21380944341589]
我々は、最先端のオフラインRLアルゴリズムが低リターントラジェクトリによって過剰に抑制され、トラジェクトリを最大限活用できないことを示す。この再加重サンプリング戦略は、任意のオフラインRLアルゴリズムと組み合わせることができる。私たちは、CQL、IQL、TD3+BCがこの潜在的なポリシー改善の一部しか達成していないのに対して、これらの同じアルゴリズムがデータセットを完全に活用していることを実証的に示しています。
論文参考訳（メタデータ） (2023-06-22T17:58:02Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Backward Imitation and Forward Reinforcement Learning via Bi-directional Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。 BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文参考訳（メタデータ） (2022-08-04T04:04:05Z)
Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。 SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文参考訳（メタデータ） (2021-11-05T12:51:15Z)
Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文参考訳（メタデータ） (2021-11-03T08:02:48Z)
Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文参考訳（メタデータ） (2021-02-18T08:54:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。