論文の概要: RELATE: A Reinforcement Learning-Enhanced LLM Framework for Advertising Text Generation
- arxiv url: http://arxiv.org/abs/2602.11780v1
- Date: Thu, 12 Feb 2026 10:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.759022
- Title: RELATE: A Reinforcement Learning-Enhanced LLM Framework for Advertising Text Generation
- Title(参考訳): RELATE: テキスト生成を広告するための強化学習強化LLMフレームワーク
- Authors: Jinfang Wang, Jiajie Liu, Jianwei Wu, Ziqin Luo, Zhen Chen, Chunlei Li, Biao Han, Tao Deng, Yi Li, Shuanglong Li, Lin Liu,
- Abstract要約: オンライン広告では、広告テキストはユーザーのエンゲージメントを惹きつけ、広告主の価値を高める上で重要な役割を担っている。
一つのモデル内で生成と客観的アライメントを統一する強化学習に基づくエンドツーエンドフレームワークであるRELATEを提案する。
クリックレベルの信号を超えた究極の広告主の値をより正確に把握するために、変換指向のメトリクスを目的に組み込んで、コンプライアンス制約を多次元報酬として共同でモデル化する。
- 参考スコア(独自算出の注目度): 17.34586562700226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In online advertising, advertising text plays a critical role in attracting user engagement and driving advertiser value. Existing industrial systems typically follow a two-stage paradigm, where candidate texts are first generated and subsequently aligned with online performance metrics such as click-through rate(CTR). This separation often leads to misaligned optimization objectives and low funnel efficiency, limiting global optimality. To address these limitations, we propose RELATE, a reinforcement learning-based end-to-end framework that unifies generation and objective alignment within a single model. Instead of decoupling text generation from downstream metric alignment, RELATE integrates performance and compliance objectives directly into the generation process via policy learning. To better capture ultimate advertiser value beyond click-level signals, We incorporate conversion-oriented metrics into the objective and jointly model them with compliance constraints as multi-dimensional rewards, enabling the model to generate high-quality ad texts that improve conversion performance under policy constraints. Extensive experiments on large-scale industrial datasets demonstrate that RELATE consistently outperforms baselines. Furthermore, online deployment on a production advertising platform yields statistically significant improvements in click-through conversion rate(CTCVR) under strict policy constraints, validating the robustness and real-world effectiveness of the proposed framework.
- Abstract(参考訳): オンライン広告では、広告テキストはユーザーのエンゲージメントを惹きつけ、広告主の価値を高める上で重要な役割を担っている。
既存の産業システムは通常、2段階のパラダイムに従っており、まず候補テキストが生成され、その後クリックスルーレート(CTR)のようなオンラインのパフォーマンス指標に適合する。
この分離は、しばしば不整合最適化目標と低いファンネル効率をもたらし、大域的最適性を制限する。
これらの制約に対処するために,1つのモデル内で生成と客観的アライメントを統一する強化学習に基づくエンドツーエンドフレームワーク RELATE を提案する。
RELATEは、下流のメトリックアライメントからテキスト生成を分離する代わりに、パフォーマンスとコンプライアンスの目標を直接、ポリシー学習を通じて生成プロセスに統合する。
クリックレベルの信号を超えた究極の広告主の値をより正確に把握するために、私たちは変換指向のメトリクスを目的に組み込んで、コンプライアンス制約を多次元の報酬として共同でモデル化し、モデルがポリシー制約の下で変換性能を向上させる高品質な広告テキストを生成することを可能にする。
大規模産業データセットに関する大規模な実験は、RELATEがベースラインを一貫して上回ることを示した。
さらに、プロダクション広告プラットフォームへのオンライン配信は、厳格なポリシー制約下でのクリックスルー変換率(CTCVR)の統計的に有意な改善をもたらし、提案フレームワークの堅牢性と実世界の有効性を検証する。
関連論文リスト
- DARA: Few-shot Budget Allocation in Online Advertising via In-Context Decision Making with RL-Finetuned LLMs [21.30516760599435]
大規模言語モデルは、AIGBの有望な代替手段を提供する。
微粒な最適化に必要な数値精度は欠如している。
DARAは、意思決定プロセスを2段階に分解する新しい2段階のフレームワークである。
当社のアプローチは、予算制約下での累積広告価値において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-01-21T06:58:44Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - A Unified Multi-Task Learning Framework for Generative Auto-Bidding with Validation-Aligned Optimization [51.27959658504722]
マルチタスク学習は、これらのタスクを共有表現を通じて共同でトレーニングするための、原則化されたフレームワークを提供する。
既存のマルチタスク最適化戦略は、主にトレーニングダイナミクスによって導かれ、不安定な入札環境ではよく一般化される。
本稿では,タスク毎のトレーニング勾配と保留有効度勾配のアライメントに基づいてタスク重みを適応的に割り当てる,バリデーション適応型マルチタスク最適化(VAMO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T03:59:51Z) - CTR-Driven Ad Text Generation via Online Feedback Preference Optimization [28.734264007257085]
大規模言語モデル(LLM)は、手動の広告テキスト作成よりも効率性が高い。
LLMは人造テキストよりも高いCTR性能を保証していない。
オンラインフィードバックからの好みの最適化によってCTRを最適化する新しい広告テキスト生成手法を提案する。
論文 参考訳(メタデータ) (2025-07-27T11:13:03Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - CREATER: CTR-driven Advertising Text Generation with Controlled
Pre-Training and Contrastive Fine-Tuning [14.912117221662054]
本稿では,CTRによる広告テキスト生成手法であるCREATERを提案し,高品質なユーザレビューに基づいて広告テキストを生成する。
CTRの目的を取り入れるために、我々のモデルはコントラスト学習を伴うオンラインA/Bテストデータから学習し、より高いCTRを得る広告テキストを生成することを奨励する。
産業データセットの実験は、CREATERが現在のアプローチよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2022-05-18T14:17:04Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。