論文の概要: EBaReT: Expert-guided Bag Reward Transformer for Auto Bidding
- arxiv url: http://arxiv.org/abs/2507.16186v1
- Date: Tue, 22 Jul 2025 02:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.94431
- Title: EBaReT: Expert-guided Bag Reward Transformer for Auto Bidding
- Title(参考訳): EBaReT:自動車用エキスパートガイドバッグリワードトランス
- Authors: Kaiyuan Li, Pengyu Wang, Yunshan Peng, Pengjia Yuan, Yanxiang Zeng, Rui Xiang, Yanhua Cheng, Xialong Liu, Peng Jiang,
- Abstract要約: 我々は,自動入札をシーケンス決定問題として定式化する。
本稿では,データ品質と不確実性報酬に関する懸念に対処するため,エキスパート誘導型バグリワード変換器(EBaReT)を提案する。
提案手法は,最先端入札方式に比べて優れた性能を示す。
- 参考スコア(独自算出の注目度): 9.534587899746976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has been widely applied in automated bidding. Traditional approaches model bidding as a Markov Decision Process (MDP). Recently, some studies have explored using generative reinforcement learning methods to address long-term dependency issues in bidding environments. Although effective, these methods typically rely on supervised learning approaches, which are vulnerable to low data quality due to the amount of sub-optimal bids and low probability rewards resulting from the low click and conversion rates. Unfortunately, few studies have addressed these challenges. In this paper, we formalize the automated bidding as a sequence decision-making problem and propose a novel Expert-guided Bag Reward Transformer (EBaReT) to address concerns related to data quality and uncertainty rewards. Specifically, to tackle data quality issues, we generate a set of expert trajectories to serve as supplementary data in the training process and employ a Positive-Unlabeled (PU) learning-based discriminator to identify expert transitions. To ensure the decision also meets the expert level, we further design a novel expert-guided inference strategy. Moreover, to mitigate the uncertainty of rewards, we consider the transitions within a certain period as a "bag" and carefully design a reward function that leads to a smoother acquisition of rewards. Extensive experiments demonstrate that our model achieves superior performance compared to state-of-the-art bidding methods.
- Abstract(参考訳): 強化学習は自動入札に広く応用されている。
伝統的なアプローチはマルコフ決定プロセス(MDP)としてモデル入札を行う。
近年,入札環境における長期依存問題に対処するために,生成的強化学習手法を用いた研究が行われている。
有効ではあるが、これらの手法は典型的には教師あり学習手法に依存しており、これは低クリック率と変換率によって生じる準最適入札の量と低い確率報酬により、データ品質の低下に弱い。
残念ながら、これらの課題に対処した研究はほとんどない。
本稿では,自動入札をシーケンス決定問題として形式化し,データ品質と不確実性報酬に関する懸念に対処する新しいエキスパート誘導バグリワード変換器(EBaReT)を提案する。
具体的には、データ品質問題に対処するために、トレーニングプロセスで補助データとして機能する専門家トラジェクトリのセットを生成し、専門家の移行を特定するためにPositive-Unlabeled (PU)学習ベースの識別器を使用する。
この決定が専門家レベルにも達することを保証するため、我々は新たな専門家誘導推論戦略を設計する。
さらに、報酬の不確実性を緩和するため、一定期間の移行を「バグ」とみなし、報酬のよりスムーズな獲得につながる報酬関数を慎重に設計する。
実験の結果,提案手法は最先端の入札手法に比べて優れた性能を示すことがわかった。
関連論文リスト
- The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability [93.11220429350278]
情報非対称性はマルチエージェントシステムの普及した特徴である。
本論文は,オンライン学習における基本的課題について考察する。知識伝達を必要とする場合でも,共同設立者について学ぶために,非I.d.アクションを適用できるのか?
本稿では,情報非対称性下でのシステム力学を正確に同定し,強化学習における知識伝達の課題を効果的にナビゲートするために,サンプル効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-11T17:06:57Z) - Robust Offline Imitation Learning Through State-level Trajectory Stitching [37.281554320048755]
イミテーション・ラーニング(IL)は、ロボットが専門家によるデモンストレーションを通じて、視覚運動のスキルを習得できるようにするのに有効であることが証明されている。
オフラインILの最近の進歩は、トレーニングに最適な、ラベルなしデータセットを組み込んでいる。
本稿では,タスク関連トラジェクトリフラグメントとリッチ環境ダイナミクスを活用することで,質の高いオフラインデータセットからのポリシー学習を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T15:28:36Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Uncertainty-Driven Action Quality Assessment [11.958132175629368]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Cost-effective Variational Active Entity Resolution [4.238343046459798]
我々は,人間の関与コストを削減するために,ディープオートエンコーダが付与するロバスト性に基づくエンティティ解決手法を考案した。
具体的には、教師なし表現学習を行うことにより、ディープ・エンティティ・リゾリューション・モデルのトレーニングコストを削減する。
最後に,ディープ・オートエンコーダの利用によって与えられる特性に基づくアクティブ・ラーニング・アプローチにより,トレーニングデータのラベル付けコストを削減した。
論文 参考訳(メタデータ) (2020-11-20T13:47:11Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Toward Optimal Probabilistic Active Learning Using a Bayesian Approach [4.380488084997317]
アクティブラーニングは、コストの高いラベリングリソースを効率よく効果的に割り当てることで、ラベリングコストを削減することを目的としている。
提案したモデルにおける既存の選択戦略を再構築することにより、どの側面が現在の最先端に包含されていないかを説明することができる。
論文 参考訳(メタデータ) (2020-06-02T15:59:42Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。