Fugu-MT 論文翻訳(概要): LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments

論文の概要: LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments

arxiv url: http://arxiv.org/abs/2406.02611v1
Date: Mon, 3 Jun 2024 07:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 23:39:37.217488
Title: LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments
Title（参考訳）: LOLA:コンテンツ実験のためのLLM支援オンライン学習アルゴリズム
Authors: Zikun Ye, Hema Yoganarasimhan, Yufeng Zheng,
Abstract要約: 本稿では,コンテンツ配信を最適化する LLM-Assisted Online Learning Algorithm (LOLA) を提案する。まず, プロンプトベース手法, 埋め込み型分類モデル, 微調整型オープンソースLCMの3つのアプローチについて検討する。次に,最適純粋LLM手法とアッパー信頼境界アルゴリズムを組み合わせたLOLAを導入し,トラフィックを適応的に割り当て,クリックを最大化する。
参考スコア（独自算出の注目度）: 2.2021543101231167
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the rapidly evolving digital content landscape, media firms and news publishers require automated and efficient methods to enhance user engagement. This paper introduces the LLM-Assisted Online Learning Algorithm (LOLA), a novel framework that integrates Large Language Models (LLMs) with adaptive experimentation to optimize content delivery. Leveraging a large-scale dataset from Upworthy, which includes 17,681 headline A/B tests aimed at evaluating the performance of various headlines associated with the same article content, we first investigate three broad pure-LLM approaches: prompt-based methods, embedding-based classification models, and fine-tuned open-source LLMs. Our findings indicate that prompt-based approaches perform poorly, achieving no more than 65% accuracy in identifying the catchier headline among two options. In contrast, OpenAI-embedding-based classification models and fine-tuned Llama-3-8b models achieve comparable accuracy, around 82-84%, though still falling short of the performance of experimentation with sufficient traffic. We then introduce LOLA, which combines the best pure-LLM approach with the Upper Confidence Bound algorithm to adaptively allocate traffic and maximize clicks. Our numerical experiments on Upworthy data show that LOLA outperforms the standard A/B testing method (the current status quo at Upworthy), pure bandit algorithms, and pure-LLM approaches, particularly in scenarios with limited experimental traffic or numerous arms. Our approach is both scalable and broadly applicable to content experiments across a variety of digital settings where firms seek to optimize user engagement, including digital advertising and social media recommendations.
Abstract（参考訳）: 急速に進化するデジタルコンテンツの世界では、メディア企業やニュース出版社は、ユーザーエンゲージメントを高めるための自動化された効率的な方法を必要としている。本稿では,LLM-Assisted Online Learning Algorithm (LOLA)を紹介し,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークを提案する。記事の内容に関連付けられた様々な見出しのパフォーマンスを評価するための17,681の見出しA/Bテストを含む、Upworthyから大規模データセットを活用することで、まず、プロンプトベースのメソッド、埋め込みベースの分類モデル、微調整されたオープンソースLCMの3つの幅広い純粋なLLMアプローチを調査する。以上の結果から,プロンプトベースアプローチの精度は65%に満たないことが示唆された。対照的に、OpenAI埋め込みベースの分類モデルと微調整のLlama-3-8bモデルは82～84%の精度を実現しているが、十分なトラフィックでの実験性能には達していない。次に,最適純粋LLM手法とアッパー信頼境界アルゴリズムを組み合わせたLOLAを導入し,トラフィックを適応的に割り当て,クリックを最大化する。 Upworthy データの数値実験により,LOLA は標準的な A/B テスト法 (Upworthy の現在の状態 quo ) ,純バンドビットアルゴリズム,純粋LLM アプローチ,特に実験トラフィックの制限や多数のアームのシナリオにおいて,優れた性能を示した。当社のアプローチは,デジタル広告やソーシャルメディアレコメンデーションなどのユーザエンゲージメントを最適化する,さまざまなディジタルセッティングのコンテンツ実験にも適用可能です。

関連論文リスト

LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Large Language Model-Enhanced Multi-Armed Bandits [43.34246396804588]
大規模言語モデル(LLM)は、マルチアーム・バンディット(MAB)のようなシーケンシャルな意思決定タスクを解決するために採用されている。古典的MABとLLMの強みを組み合わせた代替手法を提案する。実世界のテキストデータセットを用いて設計したMABタスクと実験の両方を用いて経験的評価を行う。
論文参考訳（メタデータ） (2025-02-03T07:19:05Z)
Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。 Off-CMABは悲観的な報酬推定と解法を組み合わせる。合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文参考訳（メタデータ） (2025-01-31T16:56:18Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Sample-Efficient Alignment for LLMs [29.477421976548015]
本研究では,大規模言語モデル (LLM) と人選好を協調させる手法について検討した。我々はトンプソンサンプリングに基づく統一アルゴリズムを導入し、2つの異なるLCMアライメントシナリオでその応用を強調した。その結果,SEAはオラクルの嗜好と高いサンプル効率の整合性を達成し,近年のLCMの活発な探査方法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-03T09:18:28Z)
STAR: A Simple Training-free Approach for Recommendations using Large Language Models [36.18841135511487]
大規模言語モデル(LLM)の最近の進歩は、レコメンデーションシステム(RecSys)タスクに有望な新しいアプローチを提供する。 LLMを利用するフレームワークを提案し、微調整を必要とせずに様々なレコメンデーションタスクに適用できる。本手法はHits@10のパフォーマンスが23.8%,Toys and Gamesが37.5%,Sports and Outdoorsが1.8%であった。
論文参考訳（メタデータ） (2024-10-21T19:34:40Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling [21.495443162191332]
大規模言語モデル(LLM)は様々な分野で顕著な成功を収めており、いくつかの研究がレコメンデーションシステムにおいてその可能性を探求している。逐次レコメンデーションシステムを強化するために,新しい階層型大規模言語モデル (HLLM) アーキテクチャを提案する。 HLLMは,項目特徴抽出とユーザ関心モデリングの両方に 7B パラメータを利用する構成で,優れたスケーラビリティを実現している。
論文参考訳（メタデータ） (2024-09-19T13:03:07Z)
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文参考訳（メタデータ） (2024-08-23T14:48:02Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。