論文の概要: DARA: Few-shot Budget Allocation in Online Advertising via In-Context Decision Making with RL-Finetuned LLMs
- arxiv url: http://arxiv.org/abs/2601.14711v1
- Date: Wed, 21 Jan 2026 06:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.269091
- Title: DARA: Few-shot Budget Allocation in Online Advertising via In-Context Decision Making with RL-Finetuned LLMs
- Title(参考訳): DARA: RL-Finetuned LLMを用いたインコンテキスト決定によるオンライン広告における予算配分
- Authors: Mingxuan Song, Yusen Huo, Bohan Zhou, Shenglin Yin, Zhen Xiao, Jieyi Long, Zhilin Zhang, Chuan Yu,
- Abstract要約: 大規模言語モデルは、AIGBの有望な代替手段を提供する。
微粒な最適化に必要な数値精度は欠如している。
DARAは、意思決定プロセスを2段階に分解する新しい2段階のフレームワークである。
当社のアプローチは、予算制約下での累積広告価値において、既存のベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 21.30516760599435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing the advertiser's cumulative value of winning impressions under budget constraints poses a complex challenge in online advertising, under the paradigm of AI-Generated Bidding (AIGB). Advertisers often have personalized objectives but limited historical interaction data, resulting in few-shot scenarios where traditional reinforcement learning (RL) methods struggle to perform effectively. Large Language Models (LLMs) offer a promising alternative for AIGB by leveraging their in-context learning capabilities to generalize from limited data. However, they lack the numerical precision required for fine-grained optimization. To address this limitation, we introduce GRPO-Adaptive, an efficient LLM post-training strategy that enhances both reasoning and numerical precision by dynamically updating the reference policy during training. Built upon this foundation, we further propose DARA, a novel dual-phase framework that decomposes the decision-making process into two stages: a few-shot reasoner that generates initial plans via in-context prompting, and a fine-grained optimizer that refines these plans using feedback-driven reasoning. This separation allows DARA to combine LLMs' in-context learning strengths with precise adaptability required by AIGB tasks. Extensive experiments on both real-world and synthetic data environments demonstrate that our approach consistently outperforms existing baselines in terms of cumulative advertiser value under budget constraints.
- Abstract(参考訳): 予算制約下でのインプレッションに対する広告主の累積価値の最適化は、AIGB(AI-Generated Bidding)のパラダイムの下で、オンライン広告において複雑な課題となる。
広告主は、パーソナライズされた目的を持つことが多いが、歴史的なインタラクションデータに制限があるため、従来の強化学習(RL)手法が効果的に実行できないいくつかのシナリオが生じる。
大規模言語モデル(LLM)は、コンテキスト内学習機能を活用して、限られたデータから一般化することで、AIGBの有望な代替手段を提供する。
しかし、微粒化最適化に必要な数値精度は欠如している。
この制限に対処するために,トレーニング中の参照ポリシーを動的に更新することにより,推論と数値精度の両立を図る,効率的なLLMポストトレーニング戦略であるGRPO-Adaptiveを導入する。
この基盤の上に構築されたDARAは、意思決定プロセスを2段階に分解する新しい2段階のフレームワークであり、インコンテキストプロンプトによって初期計画を生成する数発の推論器と、フィードバック駆動推論を用いてこれらの計画を洗練する微粒な最適化器である。
この分離により、DARAはLLMのコンテキスト内学習強度とAIGBタスクが必要とする正確な適応性を組み合わせることができる。
実世界のデータ環境と合成データ環境の両方に関する大規模な実験により、予算制約下での累積広告価値において、我々のアプローチが既存のベースラインを一貫して上回ることを示した。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Multi-Objective Reward and Preference Optimization: Theory and Algorithms [3.316593788543852]
この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。
ACPO, e-COP, warmPref-PS, PSPL, MOPOは, 平均コスト, エピソード, 嗜好駆動のパラダイムでRLを推し進める。
集合的に、論文はRLを平均的コスト、エピソード、および嗜好駆動のパラダイムで統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-12-11T12:51:21Z) - Data Efficient Adaptation in Large Language Models via Continuous Low-Rank Fine-Tuning [34.343514432589586]
本稿では,ローランド適応(LoRA)と連続的な微調整戦略を統合する新しいフレームワークであるtextbfを提案する。
15の多様なデータセットの実験は、DEALがベースラインメソッドを一貫して上回っていることを示している。
これらの結果は,大規模言語モデルにおける継続的適応に向けた我々のアプローチの可能性を示している。
論文 参考訳(メタデータ) (2025-09-23T12:55:57Z) - RecLLM-R1: A Two-Stage Training Paradigm with Reinforcement Learning and Chain-of-Thought v1 [20.92548890511589]
本稿では,Large Language Models(LLM)を利用したレコメンデーションフレームワークであるRecLLM-R1を紹介する。
RecLLM-R1は、精度、多様性、新規性など、さまざまな評価指標において、既存のベースラインメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2025-06-24T01:39:34Z) - Enhancing Decision-Making of Large Language Models via Actor-Critic [28.870961806283425]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。
既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。
本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
論文 参考訳(メタデータ) (2025-06-04T14:58:27Z) - Adaptive Resource Allocation Optimization Using Large Language Models in Dynamic Wireless Environments [25.866960634041092]
現在のソリューションはドメイン固有のアーキテクチャや技術に依存しており、制約付き最適化のための一般的なDLアプローチは未開発のままである。
本稿では,制約を順守しながら複雑な資源配分問題に対処するために,資源割当(LLM-RAO)のための大規模言語モデルを提案する。
LLM-RAO は従来の DL 法と比較して最大40% の性能向上を実現し,分析手法よりも80$% 向上した。
論文 参考訳(メタデータ) (2025-02-04T12:56:59Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。