論文の概要: LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments
- arxiv url: http://arxiv.org/abs/2406.02611v1
- Date: Mon, 3 Jun 2024 07:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 23:39:37.217488
- Title: LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments
- Title(参考訳): LOLA:コンテンツ実験のためのLLM支援オンライン学習アルゴリズム
- Authors: Zikun Ye, Hema Yoganarasimhan, Yufeng Zheng,
- Abstract要約: 本稿では,コンテンツ配信を最適化する LLM-Assisted Online Learning Algorithm (LOLA) を提案する。
まず, プロンプトベース手法, 埋め込み型分類モデル, 微調整型オープンソースLCMの3つのアプローチについて検討する。
次に,最適純粋LLM手法とアッパー信頼境界アルゴリズムを組み合わせたLOLAを導入し,トラフィックを適応的に割り当て,クリックを最大化する。
- 参考スコア(独自算出の注目度): 2.2021543101231167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving digital content landscape, media firms and news publishers require automated and efficient methods to enhance user engagement. This paper introduces the LLM-Assisted Online Learning Algorithm (LOLA), a novel framework that integrates Large Language Models (LLMs) with adaptive experimentation to optimize content delivery. Leveraging a large-scale dataset from Upworthy, which includes 17,681 headline A/B tests aimed at evaluating the performance of various headlines associated with the same article content, we first investigate three broad pure-LLM approaches: prompt-based methods, embedding-based classification models, and fine-tuned open-source LLMs. Our findings indicate that prompt-based approaches perform poorly, achieving no more than 65% accuracy in identifying the catchier headline among two options. In contrast, OpenAI-embedding-based classification models and fine-tuned Llama-3-8b models achieve comparable accuracy, around 82-84%, though still falling short of the performance of experimentation with sufficient traffic. We then introduce LOLA, which combines the best pure-LLM approach with the Upper Confidence Bound algorithm to adaptively allocate traffic and maximize clicks. Our numerical experiments on Upworthy data show that LOLA outperforms the standard A/B testing method (the current status quo at Upworthy), pure bandit algorithms, and pure-LLM approaches, particularly in scenarios with limited experimental traffic or numerous arms. Our approach is both scalable and broadly applicable to content experiments across a variety of digital settings where firms seek to optimize user engagement, including digital advertising and social media recommendations.
- Abstract(参考訳): 急速に進化するデジタルコンテンツの世界では、メディア企業やニュース出版社は、ユーザーエンゲージメントを高めるための自動化された効率的な方法を必要としている。
本稿では,LLM-Assisted Online Learning Algorithm (LOLA)を紹介し,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークを提案する。
記事の内容に関連付けられた様々な見出しのパフォーマンスを評価するための17,681の見出しA/Bテストを含む、Upworthyから大規模データセットを活用することで、まず、プロンプトベースのメソッド、埋め込みベースの分類モデル、微調整されたオープンソースLCMの3つの幅広い純粋なLLMアプローチを調査する。
以上の結果から,プロンプトベースアプローチの精度は65%に満たないことが示唆された。
対照的に、OpenAI埋め込みベースの分類モデルと微調整のLlama-3-8bモデルは82~84%の精度を実現しているが、十分なトラフィックでの実験性能には達していない。
次に,最適純粋LLM手法とアッパー信頼境界アルゴリズムを組み合わせたLOLAを導入し,トラフィックを適応的に割り当て,クリックを最大化する。
Upworthy データの数値実験により,LOLA は標準的な A/B テスト法 (Upworthy の現在の状態 quo ) ,純バンドビットアルゴリズム,純粋LLM アプローチ,特に実験トラフィックの制限や多数のアームのシナリオにおいて,優れた性能を示した。
当社のアプローチは,デジタル広告やソーシャルメディアレコメンデーションなどのユーザエンゲージメントを最適化する,さまざまなディジタルセッティングのコンテンツ実験にも適用可能です。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。
その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:46:59Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - H-ensemble: An Information Theoretic Approach to Reliable Few-Shot
Multi-Source-Free Transfer [4.328706834250445]
本稿では,対象タスクに対するソースモデルの最適線形結合を学習するHアンサンブル(H-ensemble)というフレームワークを提案する。
H-アンサンブルは,1)少数の目標タスクに対する新しいMSF設定への適応性,2)理論的信頼性,3)解釈や適応が容易な軽量構造を特徴とする。
我々は,Hアンサンブルが最適なタスクアンサンブルを学習し,先行技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-19T17:39:34Z) - Advertising Media and Target Audience Optimization via High-dimensional
Bandits [2.5137859989323537]
我々は、広告主がオンラインパブリッシャーのデジタル広告管理を自動化するために利用できるデータ駆動アルゴリズムを提案する。
このアルゴリズムにより、広告主は利用可能なターゲットオーディエンスと広告メディアをまたいで検索し、オンライン実験を通じてキャンペーンの最良の組み合わせを見つけることができる。
論文 参考訳(メタデータ) (2022-09-17T21:00:53Z) - Learning Distinctive Margin toward Active Domain Adaptation [27.091800612463455]
本研究では,Select-by-Distinctive-Margin (SDM) という,簡潔だが効果的なADA法を提案する。
SDMは、データ選択のための最大マージン損失とマージンサンプリングアルゴリズムからなる。
我々は、SDMを標準的なアクティブな学習設定でベンチマークし、我々のアルゴリズムが優れたデータスケーラビリティで競合する結果を達成することを実証した。
論文 参考訳(メタデータ) (2022-03-11T03:30:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。