Fugu-MT 論文翻訳(概要): Optimal Return-to-Go Guided Decision Transformer for Auto-Bidding in Advertisement

論文の概要: Optimal Return-to-Go Guided Decision Transformer for Auto-Bidding in Advertisement

arxiv url: http://arxiv.org/abs/2506.21956v1
Date: Fri, 27 Jun 2025 06:56:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 21:12:23.111562
Title: Optimal Return-to-Go Guided Decision Transformer for Auto-Bidding in Advertisement
Title（参考訳）: オートバイディング用最適リターン・ツー・ゴー案内形変圧器
Authors: Hao Jiang, Yongxiang Tang, Yanxiang Zeng, Pengjia Yuan, Yanhua Cheng, Teng Sha, Xialong Liu, Peng Jiang,
Abstract要約: 本稿では,自動入札に固有の問題に対処するため,R*決定変換器(R* DT)を導入する。 R* DTは、状態とリターン・トゥ・ゴー(RTG)値に基づくアクションを格納し、トレーニングセットを使用して所定の状態のRTGを記憶する。公開入札データセットの総合的なテストは、R* DTの有効性を検証し、混合品質軌跡を扱う際の優位性を強調する。
参考スコア（独自算出の注目度）: 8.221810937147755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the realm of online advertising, advertisers partake in ad auctions to obtain advertising slots, frequently taking advantage of auto-bidding tools provided by demand-side platforms. To improve the automation of these bidding systems, we adopt generative models, namely the Decision Transformer (DT), to tackle the difficulties inherent in automated bidding. Applying the Decision Transformer to the auto-bidding task enables a unified approach to sequential modeling, which efficiently overcomes short-sightedness by capturing long-term dependencies between past bidding actions and user behavior. Nevertheless, conventional DT has certain drawbacks: (1) DT necessitates a preset return-to-go (RTG) value before generating actions, which is not inherently produced; (2) The policy learned by DT is restricted by its training data, which is consists of mixed-quality trajectories. To address these challenges, we introduce the R* Decision Transformer (R* DT), developed in a three-step process: (1) R DT: Similar to traditional DT, R DT stores actions based on state and RTG value, as well as memorizing the RTG for a given state using the training set; (2) R^ DT: We forecast the highest value (within the training set) of RTG for a given state, deriving a suboptimal policy based on the current state and the forecasted supreme RTG value; (3) R* DT: Based on R^ DT, we generate trajectories and select those with high rewards (using a simulator) to augment our training dataset. This data enhancement has been shown to improve the RTG of trajectories in the training data and gradually leads the suboptimal policy towards optimality. Comprehensive tests on a publicly available bidding dataset validate the R* DT's efficacy and highlight its superiority when dealing with mixed-quality trajectories.
Abstract（参考訳）: オンライン広告の領域では、広告主は広告枠を得るために広告オークションに参加し、しばしば需要側プラットフォームが提供する自動入札ツールを利用する。これらの入札システムの自動化を改善するために、自動入札に固有の困難に対処するために、生成モデル、すなわちDecision Transformer(DT)を採用する。自動入札タスクにDecision Transformerを適用することで、シーケンシャルモデリングへの統一的なアプローチが可能になる。しかし,従来のDTには,(1)行動生成に先立って予め設定された戻り値(RTG)が必要であること,(2)DTが学習した方針は,学習データによって制限されていること,などの欠点がある。これらの課題に対処するために、R*決定変換器(R* DT)を3段階のプロセスで導入する。(1) R DT: 従来のDTと同様、RTG値に基づいて動作を記憶し、トレーニングセットを用いてRTGを記憶する。(2) R^ DT: 与えられた状態に対してRTGの最高値(トレーニングセットを含む)を予測し、現在の状態と予測された最高のRTG値に基づいて最適ポリシーを導出する。このデータ拡張は、トレーニングデータにおける軌道のRTGを改善することが示され、徐々に最適性への準最適政策へと導かれる。公開入札データセットの総合的なテストは、R* DTの有効性を検証し、混合品質軌跡を扱う際の優位性を強調する。

関連論文リスト

Beyond the Known: Decision Making with Counterfactual Reasoning Decision Transformer [29.029659384955206]
決定変換器(DT)は、オフラインデータセットを活用して、さまざまな領域にわたる印象的な結果を達成する、現代的な強化学習において重要な役割を果たす。本稿では,反現実的推論に触発された新しいフレームワークであるCRDTを提案する。
論文参考訳（メタデータ） (2025-05-14T03:45:16Z)
DRDT3: Diffusion-Refined Decision Test-Time Training Model [6.907105812732423]
Decision Transformer (DT) は従来のオフライン強化学習 (RL) に比べて競争力がある。我々はDiffusion-Refined Decision TTT(DRDT3)と呼ばれる統合フレームワークを導入し、DTモデルを超えたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-12T04:59:49Z)
Enhancing Decision Transformer with Diffusion-Based Trajectory Branch Generation [29.952637757286073]
決定変換器(DT)は、オフライン強化学習(RL)を教師付きシーケンスモデリングタスクに変換することにより、オフラインデータセットから効果的なポリシーを学習することができる。拡散モデルにより生成された分岐を用いてデータセットの軌道を拡大する拡散ベース軌道分岐生成(BG)を導入する。 BGはD4RLベンチマークで最先端のシーケンスモデリング手法より優れている。
論文参考訳（メタデータ） (2024-11-18T06:44:14Z)
RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer [2.1186155813156926]
RT-DETRv2は以前の最先端のリアルタイム検出器RT-DETR上に構築されている。柔軟性を向上させるために,異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。実用性を高めるため, Grid_sample演算子を置き換えるために,任意の離散サンプリング演算子を提案する。
論文参考訳（メタデータ） (2024-07-24T10:20:19Z)
Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。 DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文参考訳（メタデータ） (2023-11-01T03:32:13Z)
Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文参考訳（メタデータ） (2023-05-16T17:49:04Z)
Continual Detection Transformer for Incremental Object Detection [154.8345288298059]
インクリメンタルオブジェクト検出(IOD)は、新しいオブジェクトカテゴリに対するアノテーションを備えた、フェーズ内のオブジェクト検出をトレーニングすることを目的としている。他の段階的な設定として、IODは破滅的な忘れがちであり、知識蒸留(KD)や模範再生(ER)といった技術によってしばしば対処される。本稿では,この文脈でKDとERを効果的に活用できるトランスフォーマーベースのIODを提案する。
論文参考訳（メタデータ） (2023-04-06T14:38:40Z)
Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-31T03:14:44Z)
Generalized Decision Transformer for Offline Hindsight Information Matching [16.7594941269479]
本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
論文参考訳（メタデータ） (2021-11-19T18:56:13Z)
Unsupervised Domain Adaptation for Speech Recognition via Uncertainty Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文参考訳（メタデータ） (2020-11-26T18:51:26Z)
Towards Accurate Knowledge Transfer via Target-awareness Representation Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。 TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文参考訳（メタデータ） (2020-10-16T17:45:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。