論文の概要: S2P: State-conditioned Image Synthesis for Data Augmentation in Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.15256v1
- Date: Fri, 30 Sep 2022 06:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:16:05.574893
- Title: S2P: State-conditioned Image Synthesis for Data Augmentation in Offline
Reinforcement Learning
- Title(参考訳): S2P:オフライン強化学習におけるデータ強化のための状態条件画像合成
- Authors: Daesol Cho, Dongseok Shim, H. Jin Kim
- Abstract要約: 本稿では,エージェントの生画素を対応する状態から合成する生成モデルS2P(State2Pixel)を提案する。
これにより、RLアルゴリズムにおける状態と画像領域のギャップを埋めることができ、事実上見えない画像分布を探索することができる。
- 参考スコア(独自算出の注目度): 25.223801390996435
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline reinforcement learning (Offline RL) suffers from the innate
distributional shift as it cannot interact with the physical environment during
training. To alleviate such limitation, state-based offline RL leverages a
learned dynamics model from the logged experience and augments the predicted
state transition to extend the data distribution. For exploiting such benefit
also on the image-based RL, we firstly propose a generative model, S2P
(State2Pixel), which synthesizes the raw pixel of the agent from its
corresponding state. It enables bridging the gap between the state and the
image domain in RL algorithms, and virtually exploring unseen image
distribution via model-based transition in the state space. Through
experiments, we confirm that our S2P-based image synthesis not only improves
the image-based offline RL performance but also shows powerful generalization
capability on unseen tasks.
- Abstract(参考訳): オフライン強化学習(オフラインrl)は、トレーニング中に物理的環境と相互作用できないため、自然分布シフトに苦しむ。
このような制限を軽減するために、状態ベースのオフラインRLは、ログ化された経験から学習されたダイナミクスモデルを活用し、予測された状態遷移を拡張してデータ分散を拡張する。
このような利益をイメージベースrlにも活用するために,まず,エージェントの生画素を対応する状態から合成する生成モデルs2p(state2pixel)を提案する。
RLアルゴリズムでは、状態と画像領域のギャップを埋めることができ、状態空間のモデルベースの遷移を通じて、事実上見えない画像分布を探索することができる。
実験により、S2Pに基づく画像合成は、画像ベースのオフラインRL性能を改善するだけでなく、目に見えないタスクに対して強力な一般化能力を示すことを確認した。
関連論文リスト
- MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:57:53Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - RL-I2IT: Image-to-Image Translation with Deep Reinforcement Learning [54.40719981158774]
画像から画像への変換(I2IT)手法は,ディープラーニング(DL)モデルの単一実行時に画像を生成する。
深部強化学習(DRL)によるステップワイド意思決定問題としてI2ITを再構成する。
RLベースのI2IT(RL-I2IT)を実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-24T15:40:40Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - Unsupervised Domain Transfer with Conditional Invertible Neural Networks [83.90291882730925]
条件付き可逆ニューラルネットワーク(cINN)に基づくドメイン転送手法を提案する。
提案手法は本質的に,その可逆的アーキテクチャによるサイクル一貫性を保証し,ネットワークトレーニングを最大限効率的に行うことができる。
提案手法は,2つの下流分類タスクにおいて,現実的なスペクトルデータの生成を可能にし,その性能を向上する。
論文 参考訳(メタデータ) (2023-03-17T18:00:27Z) - Temporal superimposed crossover module for effective continuous sign
language [10.920363368754721]
本稿では、ゼロパラメータ、ゼロ時間重畳クロスオーバーモジュール(TSCM)を提案し、それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込みを形成する。
2つの大規模連続手話データセットの実験により,提案手法の有効性を実証し,高い競争力を持つ結果を得た。
論文 参考訳(メタデータ) (2022-11-07T09:33:42Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Reinforcement Learning with Latent Flow [78.74671595139613]
Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。
本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。
我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
論文 参考訳(メタデータ) (2021-01-06T03:50:50Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。