論文の概要: Optimal Return-to-Go Guided Decision Transformer for Auto-Bidding in Advertisement
- arxiv url: http://arxiv.org/abs/2506.21956v1
- Date: Fri, 27 Jun 2025 06:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.111562
- Title: Optimal Return-to-Go Guided Decision Transformer for Auto-Bidding in Advertisement
- Title(参考訳): オートバイディング用最適リターン・ツー・ゴー案内形変圧器
- Authors: Hao Jiang, Yongxiang Tang, Yanxiang Zeng, Pengjia Yuan, Yanhua Cheng, Teng Sha, Xialong Liu, Peng Jiang,
- Abstract要約: 本稿では,自動入札に固有の問題に対処するため,R*決定変換器(R* DT)を導入する。
R* DTは、状態とリターン・トゥ・ゴー(RTG)値に基づくアクションを格納し、トレーニングセットを使用して所定の状態のRTGを記憶する。
公開入札データセットの総合的なテストは、R* DTの有効性を検証し、混合品質軌跡を扱う際の優位性を強調する。
- 参考スコア(独自算出の注目度): 8.221810937147755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of online advertising, advertisers partake in ad auctions to obtain advertising slots, frequently taking advantage of auto-bidding tools provided by demand-side platforms. To improve the automation of these bidding systems, we adopt generative models, namely the Decision Transformer (DT), to tackle the difficulties inherent in automated bidding. Applying the Decision Transformer to the auto-bidding task enables a unified approach to sequential modeling, which efficiently overcomes short-sightedness by capturing long-term dependencies between past bidding actions and user behavior. Nevertheless, conventional DT has certain drawbacks: (1) DT necessitates a preset return-to-go (RTG) value before generating actions, which is not inherently produced; (2) The policy learned by DT is restricted by its training data, which is consists of mixed-quality trajectories. To address these challenges, we introduce the R* Decision Transformer (R* DT), developed in a three-step process: (1) R DT: Similar to traditional DT, R DT stores actions based on state and RTG value, as well as memorizing the RTG for a given state using the training set; (2) R^ DT: We forecast the highest value (within the training set) of RTG for a given state, deriving a suboptimal policy based on the current state and the forecasted supreme RTG value; (3) R* DT: Based on R^ DT, we generate trajectories and select those with high rewards (using a simulator) to augment our training dataset. This data enhancement has been shown to improve the RTG of trajectories in the training data and gradually leads the suboptimal policy towards optimality. Comprehensive tests on a publicly available bidding dataset validate the R* DT's efficacy and highlight its superiority when dealing with mixed-quality trajectories.
- Abstract(参考訳): オンライン広告の領域では、広告主は広告枠を得るために広告オークションに参加し、しばしば需要側プラットフォームが提供する自動入札ツールを利用する。
これらの入札システムの自動化を改善するために、自動入札に固有の困難に対処するために、生成モデル、すなわちDecision Transformer(DT)を採用する。
自動入札タスクにDecision Transformerを適用することで、シーケンシャルモデリングへの統一的なアプローチが可能になる。
しかし,従来のDTには,(1)行動生成に先立って予め設定された戻り値(RTG)が必要であること,(2)DTが学習した方針は,学習データによって制限されていること,などの欠点がある。
これらの課題に対処するために、R*決定変換器(R* DT)を3段階のプロセスで導入する。(1) R DT: 従来のDTと同様、RTG値に基づいて動作を記憶し、トレーニングセットを用いてRTGを記憶する。(2) R^ DT: 与えられた状態に対してRTGの最高値(トレーニングセットを含む)を予測し、現在の状態と予測された最高のRTG値に基づいて最適ポリシーを導出する。
このデータ拡張は、トレーニングデータにおける軌道のRTGを改善することが示され、徐々に最適性への準最適政策へと導かれる。
公開入札データセットの総合的なテストは、R* DTの有効性を検証し、混合品質軌跡を扱う際の優位性を強調する。
関連論文リスト
- Beyond the Known: Decision Making with Counterfactual Reasoning Decision Transformer [29.029659384955206]
決定変換器(DT)は、オフラインデータセットを活用して、さまざまな領域にわたる印象的な結果を達成する、現代的な強化学習において重要な役割を果たす。
本稿では,反現実的推論に触発された新しいフレームワークであるCRDTを提案する。
論文 参考訳(メタデータ) (2025-05-14T03:45:16Z) - DRDT3: Diffusion-Refined Decision Test-Time Training Model [6.907105812732423]
Decision Transformer (DT) は従来のオフライン強化学習 (RL) に比べて競争力がある。
我々はDiffusion-Refined Decision TTT(DRDT3)と呼ばれる統合フレームワークを導入し、DTモデルを超えたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-12T04:59:49Z) - RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer [2.1186155813156926]
RT-DETRv2は以前の最先端のリアルタイム検出器RT-DETR上に構築されている。
柔軟性を向上させるために,異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。
実用性を高めるため, Grid_sample演算子を置き換えるために,任意の離散サンプリング演算子を提案する。
論文 参考訳(メタデータ) (2024-07-24T10:20:19Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - Generalized Decision Transformer for Offline Hindsight Information
Matching [16.7594941269479]
本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。
特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2021-11-19T18:56:13Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。