論文の概要: State Advantage Weighting for Offline RL
- arxiv url: http://arxiv.org/abs/2210.04251v1
- Date: Sun, 9 Oct 2022 12:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 15:06:14.702612
- Title: State Advantage Weighting for Offline RL
- Title(参考訳): オフラインRLのための状態アドバンテージウェイト
- Authors: Jiafei Lyu and Aicheng Gong and Le Wan and Zongqing Lu and Xiu Li
- Abstract要約: オフライン強化学習(RL)における状態優位重み付けについて述べる。
QSA学習で一般的に採用されるアクションアドバンテージ$A(s,a)$とは対照的に、オフラインRLでは状態エバンス$A(s,sprime)$とQSS学習を利用する。
- 参考スコア(独自算出の注目度): 25.9052906800399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present state advantage weighting for offline reinforcement learning (RL).
In contrast to action advantage $A(s,a)$ that we commonly adopt in QSA
learning, we leverage state advantage $A(s,s^\prime)$ and QSS learning for
offline RL, hence decoupling the action from values. We expect the agent can
get to the high-reward state and the action is determined by how the agent can
get to that corresponding state. Experiments on D4RL datasets show that our
proposed method can achieve remarkable performance against the common
baselines. Furthermore, our method shows good generalization capability when
transferring from offline to online.
- Abstract(参考訳): オフライン強化学習(RL)における状態重み付けについて述べる。
QSA学習で一般的に採用されるアクションアドバンテージ$A(s,a)$とは対照的に、オフラインRLでは状態エバンス$A(s,s^\prime)$とQSS学習を活用して、アクションを値から分離する。
エージェントはハイリワード状態になり、アクションはエージェントが対応する状態に到達する方法によって決定されることを期待します。
D4RLデータセットを用いた実験により,提案手法は共通のベースラインに対して顕著な性能が得られることが示された。
さらに,オフラインからオンラインへの移行時の一般化能力も良好である。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Offline RL with Observation Histories: Analyzing and Improving Sample
Complexity [70.7884839812069]
オフライン強化学習は、最適な実験のみからなるデータセットから、より最適な振る舞いを合成することができる。
観測履歴を基準とした標準オフラインRLアルゴリズムは,サンプルの複雑さに悩まされていることを示す。
オフラインのRLは、この損失を明示的に最適化し、最悪のサンプルの複雑さを軽減できると提案する。
論文 参考訳(メタデータ) (2023-10-31T17:29:46Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - What can online reinforcement learning with function approximation
benefit from general coverage conditions? [53.90873926758026]
オンライン強化学習(RL)では、マルコフ決定過程(MDP)の標準的な構造仮定を採用する代わりに、特定のカバレッジ条件を使用するだけで十分である。
本研究は,より可能で一般的なカバレッジ条件を掘り下げることにより,この新たな方向性に焦点をあてる。
我々は、集中度の変化である$Lp$の変動、密度比の実現可能性、部分/レストカバレッジ条件でのトレードオフなど、さらに多くの概念を識別する。
論文 参考訳(メタデータ) (2023-04-25T14:57:59Z) - Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online
Fine-Tuning [104.05522247411018]
オフライン強化学習(RL)手法は微調整中は動作が悪くなる傾向がある。
このような校正値関数を学習するオフラインRLアルゴリズムが効果的なオンライン微調整につながることを示す。
実際には、Cal-QLは、オフラインのRLのための保守的なQ学習(CQL)の上に、1行のコード変更で実装できる。
論文 参考訳(メタデータ) (2023-03-09T18:31:13Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Improving Zero-shot Generalization in Offline Reinforcement Learning
using Generalized Similarity Functions [34.843526573355746]
強化学習(Reinforcement Learning, RL)エージェントは、複雑な逐次意思決定タスクの解決に広く用いられているが、訓練中に見えないシナリオに一般化することが困難である。
RLにおける一般化のためのオンラインアルゴリズムの性能は、観測間の類似性の評価が不十分なため、オフライン環境では妨げられることを示す。
本稿では, 一般化類似度関数(GSF)と呼ばれる新しい理論的動機付けフレームワークを提案する。このフレームワークは, 競合学習を用いてオフラインのRLエージェントを訓練し, 期待される将来の行動の類似性に基づいて観測を集約する。
論文 参考訳(メタデータ) (2021-11-29T15:42:54Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。