Fugu-MT 論文翻訳(概要): LLMs for Customized Marketing Content Generation and Evaluation at Scale

論文の概要: LLMs for Customized Marketing Content Generation and Evaluation at Scale

arxiv url: http://arxiv.org/abs/2506.17863v1
Date: Sun, 22 Jun 2025 00:28:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.620796
Title: LLMs for Customized Marketing Content Generation and Evaluation at Scale
Title（参考訳）: カスタマイズマーケティングコンテンツ生成のためのLCMと大規模評価
Authors: Haoran Liu, Amir Tahmasbi, Ehtesham Sam Haque, Purak Jain,
Abstract要約: オフサイトマーケティングはeコマースにおいて不可欠であり、企業は外部プラットフォームを通じて顧客にリーチし、小売ウェブサイトへのトラフィックを推進できる。現在のオフサイトマーケティングコンテンツのほとんどは、過剰にジェネリックでテンプレートベースであり、ランディングページと整合性がない。キーワード固有の広告コピーを生成するために複数のデータソースを統合する検索拡張システムであるMarketingFMを提案する。
参考スコア（独自算出の注目度）: 3.704327107754112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offsite marketing is essential in e-commerce, enabling businesses to reach customers through external platforms and drive traffic to retail websites. However, most current offsite marketing content is overly generic, template-based, and poorly aligned with landing pages, limiting its effectiveness. To address these limitations, we propose MarketingFM, a retrieval-augmented system that integrates multiple data sources to generate keyword-specific ad copy with minimal human intervention. We validate MarketingFM via offline human and automated evaluations and large-scale online A/B tests. In one experiment, keyword-focused ad copy outperformed templates, achieving up to 9% higher CTR, 12% more impressions, and 0.38% lower CPC, demonstrating gains in ad ranking and cost efficiency. Despite these gains, human review of generated ads remains costly. To address this, we propose AutoEval-Main, an automated evaluation system that combines rule-based metrics with LLM-as-a-Judge techniques to ensure alignment with marketing principles. In experiments with large-scale human annotations, AutoEval-Main achieved 89.57% agreement with human reviewers. Building on this, we propose AutoEval-Update, a cost-efficient LLM-human collaborative framework to dynamically refine evaluation prompts and adapt to shifting criteria with minimal human input. By selectively sampling representative ads for human review and using a critic LLM to generate alignment reports, AutoEval-Update improves evaluation consistency while reducing manual effort. Experiments show the critic LLM suggests meaningful refinements, improving LLM-human agreement. Nonetheless, human oversight remains essential for setting thresholds and validating refinements before deployment.
Abstract（参考訳）: オフサイトマーケティングはeコマースにおいて不可欠であり、企業は外部プラットフォームを通じて顧客にリーチし、小売ウェブサイトへのトラフィックを推進できる。しかし、現在のオフサイトマーケティングコンテンツのほとんどは、過度に汎用的で、テンプレートベースで、ランディングページとの整合性が悪く、有効性を制限している。これらの制約に対処するために,複数のデータソースを統合してキーワード固有の広告コピーを最小限の介入で生成する検索強化システムであるMarketingFMを提案する。オフラインの人間と自動化された評価と大規模オンラインA/Bテストを通してMarketingFMを検証する。ある実験では、キーワード中心の広告コピーは、CTRが最大9%、インプレッションが12%、CPCが0.38%向上し、広告ランキングとコスト効率が向上した。こうした利益にもかかわらず、生成された広告の人間によるレビューは依然として費用がかかる。そこで本研究では,ルールベースのメトリクスとLCM-as-a-Judge技術を組み合わせた自動評価システムであるAutoEval-Mainを提案する。大規模な人間のアノテーションを用いた実験では、AutoEval-Mainは89.57%の合意を得た。評価プロンプトを動的に洗練し,人間の入力を最小限に抑えたシフト基準に適応する,コスト効率のよいLCM-ヒューマン協調フレームワークであるAutoEval-Updateを提案する。人間レビューのための代表広告を選択的にサンプリングし、批評家のLCMを使用してアライメントレポートを生成することにより、AutoEval-Updateは手作業の削減を図り、評価一貫性を向上させる。実験は、批評家のLLMが意味のある改善を提案し、LLMと人間との合意を改善していることを示している。それでも、人間の監視は、しきい値を設定し、デプロイ前に改善を検証するために不可欠である。

関連論文リスト

Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
LLM-Cure: LLM-based Competitor User Review Analysis for Feature Enhancement [0.7285835869818668]
本稿では,大規模言語モデル(LLM)に基づく機能拡張のための競合ユーザレビュー分析を提案する。 LLM-Cureは、LCMを適用して、レビュー内の特徴を特定し、分類する。 LLM-Cureは、ユーザーレビューに苦情を付けると、苦情に関連する競合アプリの高い評価(4と5の星)のレビューをキュレートする。
論文参考訳（メタデータ） (2024-09-24T04:17:21Z)
AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文参考訳（メタデータ） (2024-08-19T19:10:38Z)
Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。 BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文参考訳（メタデータ） (2024-08-17T16:01:45Z)
Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文参考訳（メタデータ） (2024-05-30T17:19:19Z)
Self-Improving Customer Review Response Generation Based on LLMs [1.9274286238176854]
SCRABLEは、自己最適化プロンプトによって自己向上する、適応的な顧客レビュー応答自動化である。顧客レビュー領域で発生する応答の質を評価するために,人間評価者の役割を模倣する自動スコアリング機構を導入する。
論文参考訳（メタデータ） (2024-05-06T20:50:17Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文参考訳（メタデータ） (2023-09-23T08:46:11Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。