Fugu-MT 論文翻訳(概要): Adaptive Mixture Importance Sampling for Automated Ads Auction Tuning

論文の概要: Adaptive Mixture Importance Sampling for Automated Ads Auction Tuning

arxiv url: http://arxiv.org/abs/2409.13655v1
Date: Fri, 20 Sep 2024 17:03:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 06:08:43.889611
Title: Adaptive Mixture Importance Sampling for Automated Ads Auction Tuning
Title（参考訳）: 自動広告オークションチューニングのための適応混合重要度サンプリング
Authors: Yimeng Jia, Kaushal Paneri, Rong Huang, Kailash Singh Maurya, Pavan Mallapragada, Yifan Shi,
Abstract要約: 本稿では,大規模レコメンデータシステムにおいて鍵性能指標(KPI)を最適化するための新しいアプローチとして,アダプティブミックスコンパタンスサンプリング(AMIS)を提案する。大規模なオフラインシミュレーションにより、AMISはノイズの多い環境で単純なガウスの重要度サンプリング(GIS)を著しく上回ることを示す。提案手法は,大規模検索エンジン上でのオンラインA/B実験を通じて実世界のシナリオで検証される。
参考スコア（独自算出の注目度）: 5.775059611731882
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces Adaptive Mixture Importance Sampling (AMIS) as a novel approach for optimizing key performance indicators (KPIs) in large-scale recommender systems, such as online ad auctions. Traditional importance sampling (IS) methods face challenges in dynamic environments, particularly in navigating through complexities of multi-modal landscapes and avoiding entrapment in local optima for the optimization task. Instead of updating importance weights and mixing samples across iterations, as in canonical adaptive IS and multiple IS, our AMIS framework leverages a mixture distribution as the proposal distribution and dynamically adjusts both the mixture parameters and their mixing rates at each iteration, thereby enhancing search diversity and efficiency. Through extensive offline simulations, we demonstrate that AMIS significantly outperforms simple Gaussian Importance Sampling (GIS), particularly in noisy environments. Moreover, our approach is validated in real-world scenarios through online A/B experiments on a major search engine, where AMIS consistently identifies optimal tuning points that are more likely to be adopted as mainstream configurations. These findings indicate that AMIS enhances convergence in noisy environments, leading to more accurate and reliable decision-making in the context of importance sampling off-policy estimators.
Abstract（参考訳）: 本稿では,オンライン広告オークションなどの大規模レコメンデータシステムにおいて,キーパフォーマンス指標(KPI)を最適化するための新しいアプローチとして,アダプティブ・ミックス・コンパタンス・サンプリング(AMIS)を提案する。従来の重要サンプリング(IS)手法は、特にマルチモーダルランドスケープの複雑さをナビゲートし、最適化タスクの局所的な最適化を避ける際に、動的環境における課題に直面している。標準適応ISや複数ISのように重要度を更新・混合する代わりに、AMISフレームワークは、提案分布として混合分布を活用し、各繰り返しにおける混合パラメータと混合率の両方を動的に調整し、探索の多様性と効率を向上させる。大規模なオフラインシミュレーションを通じて、AMISは、特にノイズの多い環境で、単純なガウスの重要度サンプリング(GIS)を著しく上回ることを示す。さらに,本手法は,主要な検索エンジン上でのオンラインA/B実験を通じて実世界のシナリオにおいて検証される。これらの結果から,AMISはノイズの多い環境下での収束を促進させ,より正確で信頼性の高い意思決定を重要視しうることが明らかとなった。

関連論文リスト

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment [49.45064510462232]
テキスト・画像生成のためのGRPOベースのアプローチは、スパース報酬問題に悩まされる。 textbfDenseGRPOは、人間の好みと深い報酬を一致させる新しいフレームワークである。
論文参考訳（メタデータ） (2026-01-28T03:39:05Z)
Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文参考訳（メタデータ） (2025-11-06T22:24:35Z)
APLOT: Robust Reward Modeling via Adaptive Preference Learning with Optimal Transport [37.21695864040979]
報酬モデル(RM)は、強化学習(Reinforcement Learning)を通じて、大規模言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。本稿では,適応的マージン機構によりBT系RMを効果的に強化する手法を提案する。
論文参考訳（メタデータ） (2025-10-13T03:13:28Z)
G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。 G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文参考訳（メタデータ） (2025-10-02T12:57:12Z)
Sampling as Bandits: Evaluation-Efficient Design for Black-Box Densities [5.029813736862755]
bandit importance sample (BIS) は、ターゲット密度を評価するのに高価な設定のために設計された新しい種類の重要サンプリング手法である。 BISはサンプルを直接設計し、宇宙を埋めるデザインとマルチアームのバンディットを組み合わせたシーケンシャルな戦略で設計する。
論文参考訳（メタデータ） (2025-09-01T12:47:32Z)
MSDA: Combining Pseudo-labeling and Self-Supervision for Unsupervised Domain Adaptation in ASR [59.83547898874152]
本稿では,自己教師付き学習と半教師付き技術を統合する,サンプル効率のよい2段階適応手法を提案する。 MSDAは、ASRモデルの堅牢性と一般化を強化するように設計されている。本稿では,メタPLがASRタスクに効果的に適用可能であることを示す。
論文参考訳（メタデータ） (2025-05-30T14:46:05Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Stochastic Optimization with Optimal Importance Sampling [49.484190237840714]
本稿では,両者の時間的分離を必要とせずに,意思決定とIS分布を共同で更新する反復型アルゴリズムを提案する。本手法は,IS分布系に対する目的的,軽度な仮定の凸性の下で,最小の変数分散を達成し,大域収束を保証する。
論文参考訳（メタデータ） (2025-04-04T16:10:18Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Towards Robust Multimodal Open-set Test-time Adaptation via Adaptive Entropy-aware Optimization [9.03028904066824]
オープンセットテスト時間適応(OSTTA)は、未知のクラスを含む未ラベルのターゲットドメインに、オンラインのソース事前トレーニングモデルを適用することを目的としている。マルチモーダルオープンセットテスト時間適応に特化して設計された新しいフレームワークであるAdaptive Entropy-aware Optimization (AEO)を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:30Z)
Client-Centric Federated Adaptive Optimization [78.30827455292827]
Federated Learning(FL)は、クライアントが独自のデータをプライベートに保ちながら、協調的にモデルをトレーニングする分散学習パラダイムである。本稿では,新しいフェデレーション最適化手法のクラスであるフェデレーション中心適応最適化を提案する。
論文参考訳（メタデータ） (2025-01-17T04:00:50Z)
A RankNet-Inspired Surrogate-Assisted Hybrid Metaheuristic for Expensive Coverage Optimization [5.757318591302855]
大規模カバレッジ最適化タスクを処理するために,RangeNetによるSurrogate支援ハイブリッドメタヒューリスティックを提案する。我々のアルゴリズムは、EMVOPの最先端アルゴリズムを一貫して上回っている。
論文参考訳（メタデータ） (2025-01-13T14:49:05Z)
MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文参考訳（メタデータ） (2024-10-12T07:02:33Z)
Learning to Rebalance Multi-Modal Optimization by Adaptively Masking Subnetworks [13.065212096469537]
モーダル有意性を考慮した適応マスクサブネット(adaptively Mask Subnetworks, AMSS)と呼ばれる, サンプリングベース, 要素単位の結合最適化手法を提案する。具体的には,モーダルの重要度を決定するために相互情報レートを組み込んで,パラメータ更新のために各モーダルからフォアグラウンドワークを選択するために,非一様適応サンプリングを用いる。理論的知見に基づいて、AMSS+と呼ばれる非バイアス推定を用いたマルチモーダルマスクサブネットワーク戦略をさらに強化する。
論文参考訳（メタデータ） (2024-04-12T09:22:24Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Distribution-Dependent Rates for Multi-Distribution Learning [26.38831409926518]
最近のマルチディストリビューション学習フレームワークは、環境との動的相互作用において、この目的に対処する。我々は, MDL体制における分布依存性の保証を行い, 最適値以下の差でスケールし, その結果, 試料サイズへの依存度が向上することを示した。適応型楽観的アルゴリズム LCB-DR を考案し,マルチアームバンディット文学における均一性と楽観的アロケーションのコントラストを反映した。
論文参考訳（メタデータ） (2023-12-20T15:50:16Z)
Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-04T01:47:37Z)
Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文参考訳（メタデータ） (2023-08-28T18:48:34Z)
Mobilizing Personalized Federated Learning in Infrastructure-Less and Heterogeneous Environments via Random Walk Stochastic ADMM [0.14597673707346284]
本稿では,データヘテロジニティを持つ孤立ノードを特徴とする実践シナリオにおいて,フェデレートラーニング(FL)を実装する上での課題について考察する。これらの課題を克服するために,モビリティとレジリエンスの促進を目的とした,パーソナライズされたFLアプローチを提案する。我々はRWSADMM(Random Walk Alternating Direction Method of Multipliers)と呼ばれる新しい最適化アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-04-25T03:00:18Z)
Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文参考訳（メタデータ） (2022-09-27T07:58:25Z)
A Deep Reinforcement Learning Approach to Marginalized Importance Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文参考訳（メタデータ） (2021-06-12T20:21:38Z)
Sample-Rank: Weak Multi-Objective Recommendations Using Rejection Sampling [0.5156484100374059]
本稿では,マルチゴールサンプリングとユーザ関連度(Sample-Rank)のランク付けによるマーケットプレースの多目的目標への推薦手法を提案する。提案手法の新規性は,望まれるマルチゴール分布からサンプリングするMOレコメンデーション問題を低減し,プロダクションフレンドリーな学習-ランクモデルを構築することである。
論文参考訳（メタデータ） (2020-08-24T09:17:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。