論文の概要: BanditLP: Large-Scale Stochastic Optimization for Personalized Recommendations
- arxiv url: http://arxiv.org/abs/2601.15552v1
- Date: Thu, 22 Jan 2026 00:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.457841
- Title: BanditLP: Large-Scale Stochastic Optimization for Personalized Recommendations
- Title(参考訳): BanditLP: パーソナライズされたレコメンデーションのための大規模確率最適化
- Authors: Phuc Nguyen, Benjamin Zelditch, Joyce Chen, Rohit Patra, Changshuai Wei,
- Abstract要約: スケーラブルなマルチステークホルダ・コンテキスト・バンディット・フレームワークであるBanditLPを提案する。
ニューラルトンプソンサンプリングを、サービス時間における制約された行動選択のための大規模線形プログラムで、客観的な結果を学ぶために統合する。
このアプローチをLinkedInのメールマーケティングシステムに適用し、ビジネスの勝利を実証する。
- 参考スコア(独自算出の注目度): 1.8192758370546824
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present BanditLP, a scalable multi-stakeholder contextual bandit framework that unifies neural Thompson Sampling for learning objective-specific outcomes with a large-scale linear program for constrained action selection at serving time. The methodology is application-agnostic, compatible with arbitrary neural architectures, and deployable at web scale, with an LP solver capable of handling billions of variables. Experiments on public benchmarks and synthetic data show consistent gains over strong baselines. We apply this approach in LinkedIn's email marketing system and demonstrate business win, illustrating the value of integrated exploration and constrained optimization in production.
- Abstract(参考訳): 我々は、大規模線形プログラムを用いて、ニューラルネットワークトンプソンサンプリングを学習するためのスケーラブルなマルチステークホルダコンテキストバンドバンドフレームワークであるBanditLPを提案する。
この方法論はアプリケーションに依存しず、任意のニューラルネットワークと互換性があり、Webスケールでデプロイできる。
公開ベンチマークと合成データの実験は、強いベースラインよりも一貫した利得を示している。
このアプローチをLinkedInのメールマーケティングシステムに適用し、製品における統合探索と制約付き最適化の価値を例証して、ビジネスの勝利を実証する。
関連論文リスト
- VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL [38.782188833641676]
GRPOやGSPOのようなグループベースのポリシー最適化手法は、マルチモーダルモデルのトレーニングの標準となっている。
グループ内のすべての応答が同じ報酬を受けると、それらは致命的な急激な消滅問題に悩まされる。
textbfVADEは,オンラインサンプルレベルの難易度を用いたサンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T08:59:54Z) - Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization [56.97588709890706]
LongMab-POは、長文モデリングタスクのための高品質で多様な応答を生成する新しいフレームワークである。
実験の結果,LongMab-POは嗜好データペアの多様性と品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-19T16:33:55Z) - From Clicks to Preference: A Multi-stage Alignment Framework for Generative Query Suggestion in Conversational System [11.373145953200137]
生成ポリシーとユーザ意図のプログレッシブアライメントを目的とした多段階フレームワークを提案する。
我々の枠組みは, 自動評価と人的評価の両方において, ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-08-15T10:17:01Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [70.38810219913593]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - $φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。
我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。
実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-17T15:38:33Z) - Improving Portfolio Optimization Results with Bandit Networks [0.0]
非定常環境向けに設計された新しいBanditアルゴリズムを導入・評価する。
まず,Adaptive Discounted Thompson Smpling (ADTS)アルゴリズムを提案する。
そこで我々は,この手法を,CADTSアルゴリズムを導入してポートフォリオ最適化問題に拡張する。
論文 参考訳(メタデータ) (2024-10-05T16:17:31Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - An Edge-Aware Graph Autoencoder Trained on Scale-Imbalanced Data for
Traveling Salesman Problems [22.792870849003137]
本研究では、トラベリングセールスマン問題(TSP)を解決するためのデータ駆動グラフ表現学習法を提案する。
残留ゲートエンコーダは遅延エッジ埋め込みを学習するために訓練され、次いでエッジ中心のデコーダでリンク予測をエンドツーエンドに出力する。
実験結果から,提案したエッジ対応グラフオートエンコーダモデルにより,高い競合性能が得られた。
論文 参考訳(メタデータ) (2023-10-10T11:42:49Z) - Graph Neural Bandits [49.85090929163639]
グラフニューラルネットワーク(GNN)によって強化されたユーザ間の協調性を生かしたグラフニューラルバンド(GNB)というフレームワークを提案する。
提案手法を改良するために,推定ユーザグラフ上の別々のGNNモデルを用いて,エクスプロイトと適応探索を行う。
論文 参考訳(メタデータ) (2023-08-21T15:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。