論文の概要: AdNanny: One Reasoning LLM for All Offline Ads Recommendation Tasks
- arxiv url: http://arxiv.org/abs/2602.01563v1
- Date: Mon, 02 Feb 2026 02:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.855888
- Title: AdNanny: One Reasoning LLM for All Offline Ads Recommendation Tasks
- Title(参考訳): AdNanny:全オフライン広告推奨タスクのための1つの推論LDM
- Authors: Nan Hu, Han Li, Jimeng Sun, Lu Wang, Fangkai Yang, Bo Qiao, Pu Zhao, David Dai, Mengyu Liu, Yuefeng Zhan, Jianjin Zhang, Weihao Han, Allen Sun, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Denvy Deng, Feng Sun, Qi Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語理解と生成において強力な能力を示している。
オンライン広告システムに直接デプロイするのは、厳密なミリ秒レベルの遅延制約のため、現実的ではないことが多い。
我々は、オフライン広告タスクの共有バックボーンとして機能する統合推論中心のLCMであるAdNannyを紹介します。
- 参考スコア(独自算出の注目度): 57.725430699642004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown strong capabilities in Natural Language Understanding and Generation, but deploying them directly in online advertising systems is often impractical due to strict millisecond-level latency constraints. This has motivated the use of LLMs offline to improve retrieval, ranking, and recommendation models. Existing solutions typically fine-tune separate LLMs for individual tasks such as query-ad relevance labeling, keyword-based query generation, and user profiling. This results in redundant models, high maintenance cost, and limited performance gains despite substantial overlap in domain knowledge and reasoning patterns. We introduce AdNanny, a unified reasoning-centric LLM that serves as a shared backbone for offline advertising tasks. AdNanny is obtained by fine-tuning a public 671B-parameter DeepSeek-R1 checkpoint using a scalable training system that supports hybrid dense-MoE parallelism. We construct reasoning-augmented corpora that pair structured supervision with step-by-step natural language explanations. A multi-task supervised fine-tuning stage with adaptive reweighting enables AdNanny to handle diverse labeling and generation tasks in a consistent reasoning format. This is followed by reinforcement learning using downstream advertising metrics to align model behavior with online retrieval and ranking objectives. AdNanny is deployed in production within Bing Ads, where it significantly reduces manual labeling effort and improves accuracy across multiple offline tasks. By consolidating many task-specific models into a single reasoning-centric foundation model, AdNanny provides a scalable and cost-effective solution for large-scale advertising systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語理解と生成において強力な能力を示しているが、オンライン広告システムにそれらを直接デプロイすることは、ミリ秒レベルの厳密な遅延制約のため、しばしば非現実的である。
これは、検索、ランキング、レコメンデーションモデルを改善するためにLLMをオフラインで使用する動機となった。
既存のソリューションは、クエリ適応関連ラベリング、キーワードベースのクエリ生成、ユーザプロファイリングなど、個々のタスクのための細調整のLLMが一般的である。
この結果、ドメインの知識と推論パターンが大幅に重複しているにもかかわらず、冗長なモデル、高いメンテナンスコスト、パフォーマンスの向上が制限される。
我々は、オフライン広告タスクの共有バックボーンとして機能する統合推論中心のLCMであるAdNannyを紹介します。
AdNannyは、ハイブリッド高密度MoE並列性をサポートするスケーラブルなトレーニングシステムを使用して、パブリックな671BパラメータDeepSeek-R1チェックポイントを微調整することで得られる。
我々は、段階的な自然言語説明と、段階的な自然言語説明とを組み合わさった、推論強化コーパスを構築した。
適応的な再重み付けを備えたマルチタスク教師付き微調整ステージにより、AdNannyは一貫性のある推論フォーマットで多様なラベリングと生成タスクを処理できる。
次に、下流広告指標を用いた強化学習を行い、モデル行動とオンライン検索とランキングの目的を整合させる。
AdNannyはBing Ads内で本番環境にデプロイされており、手動ラベリングの労力を大幅に削減し、複数のオフラインタスクの精度を向上させる。
多くのタスク固有のモデルを単一の推論中心の基盤モデルに統合することにより、AdNannyは大規模広告システムに対してスケーラブルで費用対効果の高いソリューションを提供する。
関連論文リスト
- From Reasoning LLMs to BERT: A Two-Stage Distillation Framework for Search Relevance [20.096802351171377]
eコマース検索システムは,大規模言語モデルの直接適用を防止するために,厳格なレイテンシ要件に直面している。
本稿では,LLM から軽量で展開しやすい学生モデルへ推論機能を移行するための2段階推論蒸留フレームワークを提案する。
我々のフレームワークは、複数のメトリクスをまたいだ大幅な改善を実現し、その有効性と実用的価値を検証します。
論文 参考訳(メタデータ) (2025-10-13T06:46:43Z) - LANTERN: Scalable Distillation of Large Language Models for Job-Person Fit and Explanation [16.960316035628008]
LinkedInでは、適度な評価と詳細な説明の両方を生成するために、求職者の公開プロファイルを求職要件に対して分析する必要がある。
本稿では,職種適合タスクに特化したLLM知識蒸留フレームワークであるLANTERNを紹介する。
LANTERNは,作業者の適合度と説明力の両面において,タスク固有の指標を大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-10-07T01:10:02Z) - Multi-task Offline Reinforcement Learning for Online Advertising in Recommender Systems [54.709976343045824]
現在のオフライン強化学習(RL)手法は、スパース広告シナリオに適用した場合、重大な課題に直面している。
MTORLは,2つの主要な目標を対象とする,新しいマルチタスクオフラインRLモデルである。
我々はマルチタスク学習を用いて行動と報酬をデコードし、同時にチャネルレコメンデーションと予算配分に対処する。
論文 参考訳(メタデータ) (2025-06-29T05:05:13Z) - Boosting LLM-based Relevance Modeling with Distribution-Aware Robust Learning [14.224921308101624]
本稿では,関係モデリングのための新しい分布認識ロバスト学習フレームワーク(DaRL)を提案する。
DaRLはAlipayの保険商品検索のためにオンラインで展開されている。
論文 参考訳(メタデータ) (2024-12-17T03:10:47Z) - Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [52.763620660061115]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。
我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。
提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T13:52:43Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。