論文の概要: Permutation Equivariant Model-based Offline Reinforcement Learning for Auto-bidding
- arxiv url: http://arxiv.org/abs/2506.17919v1
- Date: Sun, 22 Jun 2025 06:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.65227
- Title: Permutation Equivariant Model-based Offline Reinforcement Learning for Auto-bidding
- Title(参考訳): 変分モデルに基づく自動入札のためのオフライン強化学習
- Authors: Zhiyu Mou, Miao Xu, Wei Chen, Rongquan Bai, Chuan Yu, Jian Xu,
- Abstract要約: 自動入札のための強化学習(RL)は、単純なオフラインシミュレーターの使用から、固定された実データセット上のオフラインRLに移行する。
本稿では,実際のデータから環境モデルを学習し,そのギャップを埋めるモデルベースRLバイディング(MRLB)を提案する。
- 参考スコア(独自算出の注目度): 19.445759456705574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) for auto-bidding has shifted from using simplistic offline simulators (Simulation-based RL Bidding, SRLB) to offline RL on fixed real datasets (Offline RL Bidding, ORLB). However, ORLB policies are limited by the dataset's state space coverage, offering modest gains. While SRLB expands state coverage, its simulator-reality gap risks misleading policies. This paper introduces Model-based RL Bidding (MRLB), which learns an environment model from real data to bridge this gap. MRLB trains policies using both real and model-generated data, expanding state coverage beyond ORLB. To ensure model reliability, we propose: 1) A permutation equivariant model architecture for better generalization, and 2) A robust offline Q-learning method that pessimistically penalizes model errors. These form the Permutation Equivariant Model-based Offline RL (PE-MORL) algorithm. Real-world experiments show that PE-MORL outperforms state-of-the-art auto-bidding methods.
- Abstract(参考訳): 自動入札のための強化学習(RL)は、単純なオフラインシミュレータ(Simulation-based RL Bidding, SRLB)から、固定された実データセット(Offline RL Bidding, ORLB)上のオフラインRLに移行した。
しかし、ORLBポリシーはデータセットの状態空間カバレッジによって制限され、控えめな利得を提供する。
SRLBは州の範囲を拡大するが、シミュレーターと現実のギャップは誤った政策のリスクを負う。
本稿では,実際のデータから環境モデルを学習し,そのギャップを埋めるモデルベースRLバイディング(MRLB)を提案する。
MRLBは、実データとモデル生成データの両方を使用してポリシーを訓練し、ORLBを超えて状態カバレッジを拡大する。
モデルの信頼性を確保するため、我々は次のように提案する。
1)より優れた一般化のための置換同変モデルアーキテクチャ、及び
2) モデル誤りを悲観的に解析する頑健なオフラインQ-ラーニング手法。
これらはPermutation Equivariant Model-based Offline RL (PE-MORL) アルゴリズムを構成する。
実世界の実験では、PE-MORLは最先端のオートバイディング法より優れていた。
関連論文リスト
- Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習し、サロゲートシミュレータとして使用する。
オフラインデータセットで同じように振る舞う様々なMDPがあり、真のMDPに関する不確実性を扱うことは困難である。
本稿では,BAMDP(Bayes Adaptive Markov Decision Process)としてオフラインMBRLのモデル化を提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - Reflect-RL: Two-Player Online RL Fine-Tuning for LMs [38.5495318990769]
オンライン強化学習(RL)と教師付き微調整(SFT)を用いた微調整言語モデル(LM)システムであるReflect-RLを提案する。
GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-20T01:04:21Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination [31.805991958408438]
トレーニングされた双方向ダイナミクスモデルとロールアウトポリシをダブルチェックで使用することにより,オフラインデータセットの強化を提案する。
提案手法は,信頼度を考慮した双方向オフラインモデルに基づくイマジネーションであり,信頼度の高いサンプルを生成し,任意のモデルレスオフラインRL法と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-16T08:00:44Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。