論文の概要: A Reinforcement-Learning-Enhanced LLM Framework for Automated A/B Testing in Personalized Marketing
- arxiv url: http://arxiv.org/abs/2506.06316v1
- Date: Tue, 27 May 2025 03:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.051175
- Title: A Reinforcement-Learning-Enhanced LLM Framework for Automated A/B Testing in Personalized Marketing
- Title(参考訳): パーソナライズマーケティングにおけるA/B自動テストのための強化学習型LLMフレームワーク
- Authors: Haoyang Feng, Yanjun Dai, Yuan Gao,
- Abstract要約: 本稿では、LLMと組み合わせた強化学習戦略最適化を用いてA/Bテストの自動化とパーソナライズを行うRL-LLM-ABテストフレームワークを提案する。
このフレームワークは、事前訓練された命令チューニング言語モデルに基づいて構築され、候補コンテンツのA/Bバージョンを生成する。
RL-LLM-ABTestが既存のA/B試験法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 5.250286096386298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For personalized marketing, a new challenge of how to effectively algorithm the A/B testing to maximize user response is urgently to be overcome. In this paper, we present a new approach, the RL-LLM-AB test framework, for using reinforcement learning strategy optimization combined with LLM to automate and personalize A/B tests. The RL-LLM-AB test is built upon the pre-trained instruction-tuned language model. It first generates A/B versions of candidate content variants using a Prompt-Conditioned Generator, and then dynamically embeds and fuses the user portrait and the context of the current query with the multi-modal perception module to constitute the current interaction state. The content version is then selected in real-time through the policy optimization module with an Actor-Critic structure, and long-term revenue is estimated according to real-time feedback (such as click-through rate and conversion rate). Furthermore, a Memory-Augmented Reward Estimator is embedded into the framework to capture long-term user preference drift, which helps to generalize policy across multiple users and content contexts. Numerical results demonstrate the superiority of our proposed RL-LLM-ABTest over existing A/B testing methods, including classical A/B testing, Contextual Bandits, and benchmark reinforcement learning approaches on real-world marketing data.
- Abstract(参考訳): パーソナライズされたマーケティングでは、ユーザ応答を最大化するためにA/Bテストを効果的にアルゴリズムする方法が緊急に克服される。
本稿では,LLMと組み合わせた強化学習戦略最適化を用いて,A/Bテストの自動化とパーソナライズを行う,RL-LLM-ABテストフレームワークを提案する。
RL-LLM-ABテストは、事前訓練された命令調整言語モデルに基づいて構築される。
Prompt-Conditioned Generatorを使って候補コンテンツのA/Bバージョンを生成し、それから動的にユーザポートレートと現在のクエリのコンテキストをマルチモーダル認識モジュールに埋め込んで、現在のインタラクション状態を構成する。
コンテンツバージョンはActor-Critic構造を持つポリシー最適化モジュールを介してリアルタイムで選択され、リアルタイムフィードバック(クリックスルー率や変換率など)に応じて長期収益が推定される。
さらに、Memory-Augmented Reward Estimatorがフレームワークに組み込まれて、長期のユーザの嗜好のドリフトをキャプチャし、複数のユーザとコンテンツコンテキストにわたるポリシーの一般化を支援する。
提案したRL-LLM-ABTestは,従来のA/Bテスト,Contextual Bandits,ベンチマーク強化学習アプローチなど,従来のA/Bテスト手法よりも優れていることを示す。
関連論文リスト
- MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - Scalable and Interpretable Contextual Bandits: A Literature Review and Retail Offer Prototype [2.7624021966289605]
本稿では、CMAB(Contextual Multi-Armed Bandit)手法のレビューを行い、スケーラブルで解釈可能なオファー選択のための実験的なフレームワークを提案する。
アプローチは製品カテゴリレベルでコンテキストをモデル化し、オファーが複数のカテゴリにまたがり、類似のオファー間での知識伝達を可能にする。
論文 参考訳(メタデータ) (2025-05-22T17:13:01Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments [2.2021543101231167]
現代のメディア企業は、ユーザーにとって最も魅力的で魅力的なコンテンツを特定するために、自動化され効率的な方法を必要としている。
本稿ではまず,3つの純LLM手法を用いて,最もキャッチラインを識別する能力について検討する。
LLM-Assisted Online Learning Algorithm (LOLA) は,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-03T07:56:58Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。