論文の概要: Improving Generative Ad Text on Facebook using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.21983v1
- Date: Tue, 29 Jul 2025 16:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.748053
- Title: Improving Generative Ad Text on Facebook using Reinforcement Learning
- Title(参考訳): 強化学習によるFacebook上の広告テキスト生成の改善
- Authors: Daniel R. Jiang, Alex Nikulkov, Yu-Chia Chen, Yang Bai, Zheqing Zhu,
- Abstract要約: 本稿は、Facebook上の生成広告のためのRL学習型大規模言語モデルの最初の展開について紹介する。
我々のモデルである"AdLlama"は、広告主が人書きの広告テキストの新しいバリエーションを作成するのを助けるAIツールである。
Facebook上の大規模な10週間のA/Bテストにおいて、AdLlamaは、キュレートされた広告でトレーニングされた教師付き模倣モデルと比較して、クリックスルー率を6.7%改善することがわかった。
- 参考スコア(独自算出の注目度): 11.28110246872973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative artificial intelligence (AI), in particular large language models (LLMs), is poised to drive transformative economic change. LLMs are pre-trained on vast text data to learn general language patterns, but a subsequent post-training phase is critical to align them for specific real-world tasks. Reinforcement learning (RL) is the leading post-training technique, yet its economic impact remains largely underexplored and unquantified. We examine this question through the lens of the first deployment of an RL-trained LLM for generative advertising on Facebook. Integrated into Meta's Text Generation feature, our model, "AdLlama," powers an AI tool that helps advertisers create new variations of human-written ad text. To train this model, we introduce reinforcement learning with performance feedback (RLPF), a post-training method that uses historical ad performance data as a reward signal. In a large-scale 10-week A/B test on Facebook spanning nearly 35,000 advertisers and 640,000 ad variations, we find that AdLlama improves click-through rates by 6.7% (p=0.0296) compared to a supervised imitation model trained on curated ads. This represents a substantial improvement in advertiser return on investment on Facebook. We also find that advertisers who used AdLlama generated more ad variations, indicating higher satisfaction with the model's outputs. To our knowledge, this is the largest study to date on the use of generative AI in an ecologically valid setting, offering an important data point quantifying the tangible impact of RL post-training. Furthermore, the results show that RLPF is a promising and generalizable approach for metric-driven post-training that bridges the gap between highly capable language models and tangible outcomes.
- Abstract(参考訳): 生成的人工知能(AI)、特に大きな言語モデル(LLM)は、変革的な経済変革を促進する。
LLMは、汎用的なパターンを学ぶために、膨大なテキストデータで事前訓練されているが、その後のトレーニングフェーズでは、それらを特定の現実世界のタスクに合わせることが重要である。
強化学習(Reinforcement Learning, RL)は、訓練後の指導的手法であるが、その経済的な影響は未解明であり、定量化されていない。
本稿は、Facebook上でのジェネレーティブ広告のためのRL学習LLMの最初の展開のレンズを通して、この問題を考察する。
Metaのテキスト生成機能に統合された当社のモデルである"AdLlama"は、広告主が人書きの広告テキストの新しいバリエーションを作成するのに役立つAIツールである。
このモデルをトレーニングするために,過去の広告パフォーマンスデータを報酬信号として利用するポストトレーニング手法であるRLPF(Regress Learning with Performance feedback)を導入する。
Facebook上での大規模な10週間のA/Bテストでは、約35,000の広告主と640,000の広告バリエーションにまたがって、AdLlamaは、キュレートされた広告で訓練された教師付き模倣モデルと比較して、クリックスルー率を6.7%(p=0.0296)改善している。
これはFacebookへの投資に対する広告主のリターンが大幅に改善したことを意味している。
また、AdLlamaを使用する広告主は広告のバリエーションを増やし、モデルのアウトプットに対する満足度を高めていることもわかりました。
我々の知る限り、この研究は、環境的に有効な環境での生成AIの使用に関する、これまでで最大の研究であり、RLポストトレーニングの具体的な影響を定量化する重要なデータポイントを提供する。
さらに, RLPFは, 有能な言語モデルと具体的な結果とのギャップを埋める, 計量駆動型ポストトレーニングにおいて, 有望かつ一般化可能なアプローチであることを示す。
関連論文リスト
- CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。
生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。
本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-05T09:06:02Z) - Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。