論文の概要: FAST-Q: Fast-track Exploration with Adversarially Balanced State Representations for Counterfactual Action Estimation in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.21383v1
- Date: Wed, 30 Apr 2025 07:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:59:18.821776
- Title: FAST-Q: Fast-track Exploration with Adversarially Balanced State Representations for Counterfactual Action Estimation in Offline Reinforcement Learning
- Title(参考訳): FAST-Q:オフライン強化学習における対実行動推定のための逆バランス状態表現を用いた高速トラック探索
- Authors: Pulkit Agrawal, Rukma Talwadker, Aditya Pareek, Tridib Mukherjee,
- Abstract要約: オンラインゲームにおけるレコメンデーションシステムのような高い利害関係の応用は、プレイヤーの心理によってさらに複雑になる。
現在のSOTA法は、既知の偽造行為をアウト・オブ・ディストリビューション(out-of-distribution)としてクリップすることで、そのようなオフラインデータからの学習を制限している。
FAST-Qは、グラディエント・リバーサル・ラーニング(Gradient Reversal Learning)を利用してバランスの取れた状態表現を構築する新しいアプローチを導入している。
- 参考スコア(独自算出の注目度): 21.23939203816886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in state-of-the-art (SOTA) offline reinforcement learning (RL) have primarily focused on addressing function approximation errors, which contribute to the overestimation of Q-values for out-of-distribution actions, a challenge that static datasets exacerbate. However, high stakes applications such as recommendation systems in online gaming, introduce further complexities due to player's psychology (intent) driven by gameplay experiences and the inherent volatility on the platform. These factors create highly sparse, partially overlapping state spaces across policies, further influenced by the experiment path selection logic which biases state spaces towards specific policies. Current SOTA methods constrain learning from such offline data by clipping known counterfactual actions as out-of-distribution due to poor generalization across unobserved states. Further aggravating conservative Q-learning and necessitating more online exploration. FAST-Q introduces a novel approach that (1) leverages Gradient Reversal Learning to construct balanced state representations, regularizing the policy-specific bias between the player's state and action thereby enabling counterfactual estimation; (2) supports offline counterfactual exploration in parallel with static data exploitation; and (3) proposes a Q-value decomposition strategy for multi-objective optimization, facilitating explainable recommendations over short and long-term objectives. These innovations demonstrate superiority of FAST-Q over prior SOTA approaches and demonstrates at least 0.15 percent increase in player returns, 2 percent improvement in lifetime value (LTV), 0.4 percent enhancement in the recommendation driven engagement, 2 percent improvement in the player's platform dwell time and an impressive 10 percent reduction in the costs associated with the recommendation, on our volatile gaming platform.
- Abstract(参考訳): 最先端(SOTA)オフライン強化学習(RL)の最近の進歩は、主に関数近似誤差に対処することに焦点を当てており、これは分布外アクションに対するQ値の過大評価に寄与し、静的データセットが悪化する課題である。
しかし、オンラインゲームにおけるレコメンデーションシステムのような高い利害関係の応用は、ゲームプレイの経験とプラットフォーム固有のボラティリティによって引き起こされるプレイヤーの心理学(意図)によってさらに複雑化する。
これらの要因は、特定のポリシーに対して状態空間を偏在させる実験経路選択論理の影響を受け、ポリシー間の状態空間を部分的に重複させる。
現状のSOTA法では, 未観測状態の一般化が不十分なため, 既知の反ファクト行為をアウト・オブ・ディストリビューションとしてクリップすることで, オフラインデータからの学習を制限している。
保守的なQ-ラーニングをさらに増加させ、よりオンラインな探索を必要とします。
FAST-Qは,1)バランス状態表現の構築にグラディエント・リバーサル・ラーニング(Gradient Reversal Learning)を活用し,プレイヤーの状態と行動間のポリシー固有のバイアスを規則化し,対実的推定を可能にする,(2)静的なデータ操作と並行してオフラインの対実的探索を支援する,(3)多目的最適化のためのQ値分解戦略を提案し,短期的および長期的目的に対する説明可能なレコメンデーションを容易にする,という新しいアプローチを提案する。
これらのイノベーションは、以前のSOTAアプローチよりもFAST-Qの方が優れており、プレイヤーリターンの少なくとも0.15%増加、ライフタイムバリュー(LTV)の2%改善、レコメンデーション駆動エンゲージメントの0.4%向上、プレイヤーのプラットフォームドウェルタイムの2%改善、そして我々の不安定なゲーミングプラットフォーム上でのリコメンデーションに関連するコストの10%削減を示す。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Exploiting Generalization in Offline Reinforcement Learning via Unseen
State Augmentations [46.11520308362843]
オフライン強化学習(RL)手法は、保守的価値推定による探索と搾取のバランスを崩す。
モデルフリーメソッドは、すべての未確認アクションで値をペナライズするが、モデルベースメソッドはモデルロールアウトを通じて、さらに未確認の状態を活用できる。
本稿では,学習モデルと評価値が一般化した未確認状態の活用を可能にする,新たな未確認状態拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-08-07T19:24:47Z) - Boosting Offline Reinforcement Learning with Action Preference Query [32.94932149345299]
実践的エージェントの訓練は通常、政策のパフォーマンスと相互作用コストのバランスをとるために、オフラインおよびオンライン強化学習(RL)を含む。
オンラインファインチューニングは、オフライントレーニングフェーズで学習したアウト・オブ・ディストリビューションデータの誤った推定を補正するために一般的に用いられている方法となっている。
本研究では,Offline-with-Action-Preferences (OAP) と呼ばれるインタラクションフリーのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-06-06T02:29:40Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。