論文の概要: Incentive-Aware Multi-Fidelity Optimization for Generative Advertising in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.06263v1
- Date: Tue, 07 Apr 2026 02:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.127553
- Title: Incentive-Aware Multi-Fidelity Optimization for Generative Advertising in Large Language Models
- Title(参考訳): 大規模言語モデルにおける生成広告のためのインセンティブ・アウェア・マルチフィデリティ最適化
- Authors: Jiayuan Liu, Barry Wang, Jiarui Gan, Tonghan Wang, Leon Xie, Mingyu Guo, Vincent Conitzer,
- Abstract要約: 本稿では,Vickrey-Clarke-GroveswarmインセンティブとMulti-Fidelity Optimizationを結合した統合フレームワークを提案する。
実験により、IAMFMは様々な予算で単一忠実度ベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 34.926198199616955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative advertising in large language model (LLM) responses requires optimizing sponsorship configurations under two strict constraints: the strategic behavior of advertisers and the high cost of stochastic generations. To address this, we propose the Incentive-Aware Multi-Fidelity Mechanism (IAMFM), a unified framework coupling Vickrey-Clarke-Groves (VCG) incentives with Multi-Fidelity Optimization to maximize expected social welfare. We compare two algorithmic instantiations (elimination-based and model-based), revealing their budget-dependent performance trade-offs. Crucially, to make VCG computationally feasible, we introduce Active Counterfactual Optimization, a "warm-start" approach that reuses optimization data for efficient payment calculation. We provide formal guarantees for approximate strategy-proofness and individual rationality, establishing a general approach for incentive-aligned, budget-constrained generative processes. Experiments demonstrate that IAMFM outperforms single-fidelity baselines across diverse budgets.
- Abstract(参考訳): 大規模言語モデル(LLM)応答における生成的広告は、広告主の戦略的行動と確率的世代高コストという2つの厳密な制約の下でスポンサー設定を最適化する必要がある。
そこで本稿では,Vickrey-Clarke-Groves (VCG) とMulti-Fidelity Optimizationを結合した統合フレームワークであるIncentive-Aware Multi-Fidelity Mechanism (IAMFM)を提案する。
2つのアルゴリズムのインスタンス化(除去ベースとモデルベース)を比較し、予算依存のパフォーマンストレードオフを明らかにする。
重要なことに、VCGを計算的に実現可能にするために、効率的な支払計算のために最適化データを再利用する「ウォームスタート」アプローチであるActive Counterfactual Optimizationを導入する。
我々は, 戦略的安全性と個人的合理性に関する公式な保証を提供し, インセンティブに整合した, 予算制約のある生成プロセスに対する一般的なアプローチを確立する。
実験により、IAMFMは様々な予算で単一忠実度ベースラインを上回っていることが示された。
関連論文リスト
- Surrogate Ensemble in Expensive Multi-Objective Optimization via Deep Q-Learning [17.84264663466905]
サロゲート支援進化アルゴリズム(SAEA)は、高価な最適化問題を解く上で有望な堅牢性を示している。
SAEAsの有効性に影響を与える重要な側面は、モデル選択の代理である。
一つの最適化プロセス内で異なる代理モデルをスケジューリングできるSEEMOOと呼ばれる強化学習支援アンサンブルフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-31T06:14:27Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - MALBO: Optimizing LLM-Based Multi-Agent Teams via Multi-Objective Bayesian Optimization [0.0]
この論文では、マルチエージェントAIチームの効率的な構成を自動化するように設計された、体系的なフレームワークであるMALBOを紹介している。
タスクの精度と推論コストの間の設定の前面を特定することを目的として,多目的最適化問題として代入課題を定式化する。
その結果、ベイズ最適化フェーズは、初期ランダム検索と比較して、平均構成コストを45%以上削減しつつ、同等な平均性能を維持した。
論文 参考訳(メタデータ) (2025-11-14T18:01:08Z) - GPR: Towards a Generative Pre-trained One-Model Paradigm for Large-Scale Advertising Recommendation [38.48999566011862]
GPR(Generative Pre-trained Recommender)は,広告推薦をエンドツーエンド生成タスクとして再定義するワンモデルフレームワークである。
統一表現、ネットワークアーキテクチャ、トレーニング戦略にまたがる3つの重要なイノベーションを紹介します。
GPRはTencent Weixin Channelsの広告システムに完全にデプロイされており、主要なビジネスメトリクスを大幅に改善している。
論文 参考訳(メタデータ) (2025-11-13T09:50:53Z) - A Unified Multi-Task Learning Framework for Generative Auto-Bidding with Validation-Aligned Optimization [51.27959658504722]
マルチタスク学習は、これらのタスクを共有表現を通じて共同でトレーニングするための、原則化されたフレームワークを提供する。
既存のマルチタスク最適化戦略は、主にトレーニングダイナミクスによって導かれ、不安定な入札環境ではよく一般化される。
本稿では,タスク毎のトレーニング勾配と保留有効度勾配のアライメントに基づいてタスク重みを適応的に割り当てる,バリデーション適応型マルチタスク最適化(VAMO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T03:59:51Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - A RankNet-Inspired Surrogate-Assisted Hybrid Metaheuristic for Expensive Coverage Optimization [5.757318591302855]
大規模カバレッジ最適化タスクを処理するために,RangeNetによるSurrogate支援ハイブリッドメタヒューリスティックを提案する。
我々のアルゴリズムは、EMVOPの最先端アルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-13T14:49:05Z) - Leveraging Trust for Joint Multi-Objective and Multi-Fidelity
Optimization [0.0]
本稿では,ベイズ的多目的・多忠実度最適化(MOMF)に対する新しいアプローチについて検討する。
複数目的とデータソースの同時最適化を支援するために,信頼度基準の革新的利用を提案する。
本手法はプラズマ物理学や流体力学などの分野におけるシミュレーション問題の解法に適用可能である。
論文 参考訳(メタデータ) (2021-12-27T20:55:26Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。