Fugu-MT 論文翻訳(概要): iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning

論文の概要: iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning

arxiv url: http://arxiv.org/abs/2406.02696v1
Date: Tue, 4 Jun 2024 18:15:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 23:08:11.253136
Title: iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning
Title（参考訳）: iQRL -- サンプル効率強化学習のための暗黙的に量子化された表現
Authors: Aidan Scannell, Kalle Kujanpää, Yi Zhao, Mohammadreza Nakhaei, Arno Solin, Joni Pajarinen,
Abstract要約: 自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。 iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
参考スコア（独自算出の注目度）: 24.684363928059113
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning representations for reinforcement learning (RL) has shown much promise for continuous control. We propose an efficient representation learning method using only a self-supervised latent-state consistency loss. Our approach employs an encoder and a dynamics model to map observations to latent states and predict future latent states, respectively. We achieve high performance and prevent representation collapse by quantizing the latent representation such that the rank of the representation is empirically preserved. Our method, named iQRL: implicitly Quantized Reinforcement Learning, is straightforward, compatible with any model-free RL algorithm, and demonstrates excellent performance by outperforming other recently proposed representation learning methods in continuous control benchmarks from DeepMind Control Suite.
Abstract（参考訳）: 強化学習(RL)のための学習表現は、継続的な制御に大いに期待されている。自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。提案手法では, エンコーダとダイナミックスモデルを用いて, 観測結果を潜時状態にマッピングし, 将来の潜時状態を予測する。我々は,表現のランクが経験的に保存されるような潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。提案手法は,iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)と呼ばれ,任意のモデルフリーなRLアルゴリズムと互換性があり,DeepMind Control Suiteの連続制御ベンチマークで提案された他の表現学習手法よりも優れた性能を示す。

関連論文リスト

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
Learning Interpretable Policies in Hindsight-Observable POMDPs through Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。 PSRLの中心は、教師なし学習と教師なし学習の融合である。 PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文参考訳（メタデータ） (2024-02-14T16:23:23Z)
Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文参考訳（メタデータ） (2022-08-25T21:08:01Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文参考訳（メタデータ） (2022-07-12T21:02:02Z)
Value-Consistent Representation Learning for Data-Efficient Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文参考訳（メタデータ） (2022-06-25T03:02:25Z)
Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文参考訳（メタデータ） (2022-06-15T14:34:15Z)
Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文参考訳（メタデータ） (2022-01-28T13:07:11Z)
Learning Temporally-Consistent Representations for Data-Efficient Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。 KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文参考訳（メタデータ） (2021-10-11T00:16:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。