論文の概要: Permutation Equivariant Model-based Offline Reinforcement Learning for Auto-bidding
- arxiv url: http://arxiv.org/abs/2506.17919v1
- Date: Sun, 22 Jun 2025 06:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.65227
- Title: Permutation Equivariant Model-based Offline Reinforcement Learning for Auto-bidding
- Title(参考訳): 変分モデルに基づく自動入札のためのオフライン強化学習
- Authors: Zhiyu Mou, Miao Xu, Wei Chen, Rongquan Bai, Chuan Yu, Jian Xu,
- Abstract要約: 自動入札のための強化学習(RL)は、単純なオフラインシミュレーターの使用から、固定された実データセット上のオフラインRLに移行する。
本稿では,実際のデータから環境モデルを学習し,そのギャップを埋めるモデルベースRLバイディング(MRLB)を提案する。
- 参考スコア(独自算出の注目度): 19.445759456705574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) for auto-bidding has shifted from using simplistic offline simulators (Simulation-based RL Bidding, SRLB) to offline RL on fixed real datasets (Offline RL Bidding, ORLB). However, ORLB policies are limited by the dataset's state space coverage, offering modest gains. While SRLB expands state coverage, its simulator-reality gap risks misleading policies. This paper introduces Model-based RL Bidding (MRLB), which learns an environment model from real data to bridge this gap. MRLB trains policies using both real and model-generated data, expanding state coverage beyond ORLB. To ensure model reliability, we propose: 1) A permutation equivariant model architecture for better generalization, and 2) A robust offline Q-learning method that pessimistically penalizes model errors. These form the Permutation Equivariant Model-based Offline RL (PE-MORL) algorithm. Real-world experiments show that PE-MORL outperforms state-of-the-art auto-bidding methods.
- Abstract(参考訳): 自動入札のための強化学習(RL)は、単純なオフラインシミュレータ(Simulation-based RL Bidding, SRLB)から、固定された実データセット(Offline RL Bidding, ORLB)上のオフラインRLに移行した。
しかし、ORLBポリシーはデータセットの状態空間カバレッジによって制限され、控えめな利得を提供する。
SRLBは州の範囲を拡大するが、シミュレーターと現実のギャップは誤った政策のリスクを負う。
本稿では,実際のデータから環境モデルを学習し,そのギャップを埋めるモデルベースRLバイディング(MRLB)を提案する。
MRLBは、実データとモデル生成データの両方を使用してポリシーを訓練し、ORLBを超えて状態カバレッジを拡大する。
モデルの信頼性を確保するため、我々は次のように提案する。
1)より優れた一般化のための置換同変モデルアーキテクチャ、及び
2) モデル誤りを悲観的に解析する頑健なオフラインQ-ラーニング手法。
これらはPermutation Equivariant Model-based Offline RL (PE-MORL) アルゴリズムを構成する。
実世界の実験では、PE-MORLは最先端のオートバイディング法より優れていた。
関連論文リスト
- Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習し、サロゲートシミュレータとして使用する。
オフラインデータセットで同じように振る舞う様々なMDPがあり、真のMDPに関する不確実性を扱うことは困難である。
本稿では,BAMDP(Bayes Adaptive Markov Decision Process)としてオフラインMBRLのモデル化を提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - Offline Trajectory Optimization for Offline Reinforcement Learning [42.306438854850434]
オフライン強化学習は オンライン調査なしで 政策を学ぶことを目的としています
オフラインRLのための既存のデータ拡張手法は、(i)短期水平シミュレーションによる自明な改善に悩まされている。
オフライン強化学習(OTTO)のためのオフライン軌道最適化を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Reflect-RL: Two-Player Online RL Fine-Tuning for LMs [38.5495318990769]
オンライン強化学習(RL)と教師付き微調整(SFT)を用いた微調整言語モデル(LM)システムであるReflect-RLを提案する。
GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-20T01:04:21Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination [31.805991958408438]
トレーニングされた双方向ダイナミクスモデルとロールアウトポリシをダブルチェックで使用することにより,オフラインデータセットの強化を提案する。
提案手法は,信頼度を考慮した双方向オフラインモデルに基づくイマジネーションであり,信頼度の高いサンプルを生成し,任意のモデルレスオフラインRL法と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-16T08:00:44Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。