論文の概要: LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments
- arxiv url: http://arxiv.org/abs/2406.02611v3
- Date: Tue, 26 Nov 2024 18:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:32:35.609605
- Title: LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments
- Title(参考訳): LOLA:コンテンツ実験のためのLLM支援オンライン学習アルゴリズム
- Authors: Zikun Ye, Hema Yoganarasimhan, Yufeng Zheng,
- Abstract要約: 現代のメディア企業は、ユーザーにとって最も魅力的で魅力的なコンテンツを特定するために、自動化され効率的な方法を必要としている。
本稿ではまず,3つの純LLM手法を用いて,最もキャッチラインを識別する能力について検討する。
LLM-Assisted Online Learning Algorithm (LOLA) は,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 2.2021543101231167
- License:
- Abstract: Modern media firms require automated and efficient methods to identify content that is most engaging and appealing to users. Leveraging a large-scale dataset from Upworthy (a news publisher), which includes 17,681 headline A/B tests, we first investigate the ability of three pure-LLM approaches to identify the catchiest headline: prompt-based methods, embedding-based methods, and fine-tuned open-source LLMs. Prompt-based approaches perform poorly, while both OpenAI-embedding-based models and the fine-tuned Llama-3-8B achieve marginally higher accuracy than random predictions. In sum, none of the pure-LLM-based methods can predict the best-performing headline with high accuracy. We then introduce the LLM-Assisted Online Learning Algorithm (LOLA), a novel framework that integrates Large Language Models (LLMs) with adaptive experimentation to optimize content delivery. LOLA combines the best pure-LLM approach with the Upper Confidence Bound algorithm to allocate traffic and maximize clicks adaptively. Our numerical experiments on Upworthy data show that LOLA outperforms the standard A/B test method (the current status quo at Upworthy), pure bandit algorithms, and pure-LLM approaches, particularly in scenarios with limited experimental traffic. Our approach is scalable and applicable to content experiments across various settings where firms seek to optimize user engagement, including digital advertising and social media recommendations.
- Abstract(参考訳): 現代のメディア企業は、ユーザーにとって最も魅力的で魅力的なコンテンツを特定するために、自動化され効率的な方法を必要としている。
17,681の見出しA/Bテストを含むUpworthy(ニュースパブリッシャ)から大規模なデータセットを活用することで、我々はまず、最もキャッチラインを識別する3つの純粋なLLMアプローチ(プロンプトベースのメソッド、埋め込みベースのメソッド、微調整されたオープンソースLLM)を調査する。
プロンプトベースのアプローチは、OpenAI埋め込みベースのモデルと微調整されたLlama-3-8Bの両方が、ランダムな予測よりも極端に高い精度を達成する。
総じて、純粋なLLMベースの手法では、高い精度で最高のパフォーマンスの見出しを予測できない。
LLM-Assisted Online Learning Algorithm (LOLA) は,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークである。
LOLAは、最高の純LLMアプローチとアッパー信頼境界アルゴリズムを組み合わせることで、トラフィックを割り当て、クリックを適応的に最大化する。
Upworthy データの数値実験により,LOLA は標準 A/B 試験法 (Upworthy の現在の状態 quo ) ,純バンドビットアルゴリズム,純粋LLM アプローチ,特に実験トラフィックが限定されたシナリオにおいて,優れた性能を示した。
当社のアプローチはスケーラブルで、デジタル広告やソーシャルメディアのレコメンデーションなど、企業がユーザエンゲージメントを最適化しようとするさまざまな環境でのコンテンツ実験にも適用可能です。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Sample-Efficient Alignment for LLMs [29.477421976548015]
本研究では,大規模言語モデル (LLM) と人選好を協調させる手法について検討した。
我々はトンプソンサンプリングに基づく統一アルゴリズムを導入し、2つの異なるLCMアライメントシナリオでその応用を強調した。
その結果,SEAはオラクルの嗜好と高いサンプル効率の整合性を達成し,近年のLCMの活発な探査方法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-03T09:18:28Z) - STAR: A Simple Training-free Approach for Recommendations using Large Language Models [36.18841135511487]
大規模言語モデル(LLM)の最近の進歩は、レコメンデーションシステム(RecSys)タスクに有望な新しいアプローチを提供する。
LLMを利用するフレームワークを提案し、微調整を必要とせずに様々なレコメンデーションタスクに適用できる。
本手法はHits@10のパフォーマンスが23.8%,Toys and Gamesが37.5%,Sports and Outdoorsが1.8%であった。
論文 参考訳(メタデータ) (2024-10-21T19:34:40Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling [21.495443162191332]
大規模言語モデル(LLM)は様々な分野で顕著な成功を収めており、いくつかの研究がレコメンデーションシステムにおいてその可能性を探求している。
逐次レコメンデーションシステムを強化するために,新しい階層型大規模言語モデル (HLLM) アーキテクチャを提案する。
HLLMは,項目特徴抽出とユーザ関心モデリングの両方に 7B パラメータを利用する構成で,優れたスケーラビリティを実現している。
論文 参考訳(メタデータ) (2024-09-19T13:03:07Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。