論文の概要: LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting
- arxiv url: http://arxiv.org/abs/2603.05134v1
- Date: Thu, 05 Mar 2026 13:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.229329
- Title: LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting
- Title(参考訳): LBM: 推論とアクティベーションによる階層型大規模自動入札モデル
- Authors: Yewen Li, Zhiyi Lyu, Peng Jiang, Qingpeng Cai, Fei Pan, Bo An, Peng Jiang,
- Abstract要約: 大規模言語モデル(LLM)は、先行する人間の知識と推論能力を活用して、自動入札のパフォーマンスを向上させることで、有望なソリューションを提供する。
本稿では,LLMの推論能力を活かした階層型大規模自動入札モデル(LBM)を提案する。
- 参考スコア(独自算出の注目度): 29.012758785758262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing scale of ad auctions on online advertising platforms has intensified competition, making manual bidding impractical and necessitating auto-bidding to help advertisers achieve their economic goals. Current auto-bidding methods have evolved to use offline reinforcement learning or generative methods to optimize bidding strategies, but they can sometimes behave counterintuitively due to the black-box training manner and limited mode coverage of datasets, leading to challenges in understanding task status and generalization in dynamic ad environments. Large language models (LLMs) offer a promising solution by leveraging prior human knowledge and reasoning abilities to improve auto-bidding performance. However, directly applying LLMs to auto-bidding faces difficulties due to the need for precise actions in competitive auctions and the lack of specialized auto-bidding knowledge, which can lead to hallucinations and suboptimal decisions. To address these challenges, we propose a hierarchical Large autoBidding Model (LBM) to leverage the reasoning capabilities of LLMs for developing a superior auto-bidding strategy. This includes a high-level LBM-Think model for reasoning and a low-level LBM-Act model for action generation. Specifically, we propose a dual embedding mechanism to efficiently fuse two modalities, including language and numerical inputs, for language-guided training of the LBM-Act; then, we propose an offline reinforcement fine-tuning technique termed GQPO for mitigating the LLM-Think's hallucinations and enhancing decision-making performance without simulation or real-world rollout like previous multi-turn LLM-based methods. Experiments demonstrate the superiority of a generative backbone based on our LBM, especially in an efficient training manner and generalization ability.
- Abstract(参考訳): オンライン広告プラットフォームにおける広告オークションの規模は、競争を激化させ、広告主が経済的目標を達成するために手動入札を非現実的にし、自動入札を必要としている。
現在の自動入札手法は、オフラインの強化学習や生成手法を使って入札戦略を最適化するように進化してきたが、ブラックボックスのトレーニング方法とデータセットの限定モードカバレッジにより、時には逆向きに振る舞うことができるため、動的広告環境におけるタスクのステータスと一般化の理解が困難になる。
大規模言語モデル(LLM)は、先行する人間の知識と推論能力を活用して、自動入札のパフォーマンスを向上させることで、有望なソリューションを提供する。
しかし, LLMをオートバイディングに直接適用することは, 競争力のあるオークションにおける正確な行動の必要性や, 幻覚や準最適決定に繋がる専門的なオートバイディング知識の欠如など, 困難に直面している。
これらの課題に対処するため、我々はLLMの推論能力を活用して優れた自動入札戦略を開発するための階層的大規模自動入札モデル(LBM)を提案する。
これには、推論のための高レベル LBM-Think モデルと、アクション生成のための低レベル LBM-Act モデルが含まれる。
具体的には,LBM-Actの言語指導訓練において,言語と数値入力を含む2つのモダリティを効率的に融合するデュアル埋め込み機構を提案し,LLM-Thinkの幻覚を緩和し,従来のマルチターンLDMのような実世界のロールアウトを伴わない意思決定性能を向上させるために,GQPOと呼ばれるオフライン強化微調整手法を提案する。
LBMに基づく生成バックボーンの優位性を,特に効率的な訓練方法と一般化能力で実証した。
関連論文リスト
- DARA: Few-shot Budget Allocation in Online Advertising via In-Context Decision Making with RL-Finetuned LLMs [21.30516760599435]
大規模言語モデルは、AIGBの有望な代替手段を提供する。
微粒な最適化に必要な数値精度は欠如している。
DARAは、意思決定プロセスを2段階に分解する新しい2段階のフレームワークである。
当社のアプローチは、予算制約下での累積広告価値において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-01-21T06:58:44Z) - LLM-Auction: Generative Auction towards LLM-Native Advertising [10.695066036409274]
LLMネイティブ広告のためのオークションとLLM生成を統合した学習型生成オークション機構を提案する。
本稿では,報酬モデルとLLMを交互に最適化するIRPOアルゴリズムを提案する。
LLM-Auctionは、所望の機構特性を達成しつつ、割り当て効率において既存のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-12-11T11:31:20Z) - Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - Multi-task Offline Reinforcement Learning for Online Advertising in Recommender Systems [54.709976343045824]
現在のオフライン強化学習(RL)手法は、スパース広告シナリオに適用した場合、重大な課題に直面している。
MTORLは,2つの主要な目標を対象とする,新しいマルチタスクオフラインRLモデルである。
我々はマルチタスク学習を用いて行動と報酬をデコードし、同時にチャネルレコメンデーションと予算配分に対処する。
論文 参考訳(メタデータ) (2025-06-29T05:05:13Z) - Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics [0.46174569259495524]
本稿では,Large Language Models(LLMs)の分野における重要な展開について概説する。
人間と機械のコミュニケーションのギャップを埋めるのに最も効果的なテクニックには、Chain-of-Thought prompting、Instruction Tuning、Reinforcement Learning from Human Feedbackなどがある。
効率性、スケーリング戦略、最適化テクニック、および影響力のあるMixture-of-Experts(MoE)アーキテクチャについて、重要な焦点が当てられている。
論文 参考訳(メタデータ) (2025-06-14T05:55:19Z) - Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing [14.432850893209817]
本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。
我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
論文 参考訳(メタデータ) (2025-03-20T03:02:32Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [84.31119464141631]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。