論文の概要: Reinforcement Learning with Simple Sequence Priors
- arxiv url: http://arxiv.org/abs/2305.17109v1
- Date: Fri, 26 May 2023 17:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:06:21.722616
- Title: Reinforcement Learning with Simple Sequence Priors
- Title(参考訳): 簡易配列事前化による強化学習
- Authors: Tankred Saanum, No\'emi \'Eltet\H{o}, Peter Dayan, Marcel Binz, Eric
Schulz
- Abstract要約: 圧縮可能な動作列でタスクを解くことを学習するRLアルゴリズムを提案する。
得られたRLアルゴリズムは学習を高速化し、最先端のモデルフリーアプローチよりも高いリターンが得られることを示す。
- 参考スコア(独自算出の注目度): 9.869634509510016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Everything else being equal, simpler models should be preferred over more
complex ones. In reinforcement learning (RL), simplicity is typically
quantified on an action-by-action basis -- but this timescale ignores temporal
regularities, like repetitions, often present in sequential strategies. We
therefore propose an RL algorithm that learns to solve tasks with sequences of
actions that are compressible. We explore two possible sources of simple action
sequences: Sequences that can be learned by autoregressive models, and
sequences that are compressible with off-the-shelf data compression algorithms.
Distilling these preferences into sequence priors, we derive a novel
information-theoretic objective that incentivizes agents to learn policies that
maximize rewards while conforming to these priors. We show that the resulting
RL algorithm leads to faster learning, and attains higher returns than
state-of-the-art model-free approaches in a series of continuous control tasks
from the DeepMind Control Suite. These priors also produce a powerful
information-regularized agent that is robust to noisy observations and can
perform open-loop control.
- Abstract(参考訳): 他のすべてが平等でシンプルなモデルは、より複雑なモデルよりも好まれるべきです。
強化学習(RL)では、単純さはアクションバイアクションベースで定量化されることが多いが、このタイムスケールは、しばしばシーケンシャル戦略に存在する反復のような時間的規則を無視している。
そこで我々は,圧縮可能な動作列でタスクを解くことを学習するRLアルゴリズムを提案する。
自己回帰モデルで学習可能なシーケンスと、既製のデータ圧縮アルゴリズムで圧縮可能なシーケンスの2つについて検討する。
これらの嗜好をシーケンス先行に拡張することで、エージェントに報酬を最大化するポリシーを学ぶインセンティブを与える新しい情報理論の目的を導き出す。
得られたRLアルゴリズムは学習を高速化し,DeepMind Control Suiteの一連の連続制御タスクにおいて,最先端のモデルフリーアプローチよりも高いリターンが得られることを示す。
これらの事前処理は、ノイズ観測に頑健でオープンループ制御が可能な強力な情報レギュラー化エージェントも生成する。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Towards Correlated Sequential Rules [4.743965372344134]
高実用性シーケンシャルルールマイニング(HUSRM)は、結果のシーケンシャルパターンの発生を予測できる信頼度や確率を調査するために設計された。
HUSRMと呼ばれる既存のアルゴリズムは、生成されたシーケンシャルルール間の相関を無視しながら、すべての許容ルールを抽出することに制限されている。
本稿では,HUSRMに相関の概念を統合するために,CoUSR(Cocorlation High-utility Sequence Rule Minr)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-27T17:27:23Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Deep Reinforcement Learning with Adjustments [10.244120641608447]
制御とRLアルゴリズムをブリッジできる連続行動空間のための新しいQ-ラーニングアルゴリズムを提案する。
提案手法は,長期的目標を達成するための複雑なポリシを学習できると同時に,短期的な要件に対応するための調整も容易である。
論文 参考訳(メタデータ) (2021-09-28T03:35:09Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。