論文の概要: Let the Agent Steer: Closed-Loop Ranking Optimization via Influence Exchange
- arxiv url: http://arxiv.org/abs/2603.27765v1
- Date: Sun, 29 Mar 2026 16:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.106153
- Title: Let the Agent Steer: Closed-Loop Ranking Optimization via Influence Exchange
- Title(参考訳): エージェントをステアにする: 影響交換によるクローズド・ループのランク付け最適化
- Authors: Yin Cheng, Liao Zhou, Xiyu Liang, Dihao Luo, Tewei Lee, Kailun Zheng, Weiwei Zhang, Mingchen Cai, Jian Dong, Andy Zhang,
- Abstract要約: 大規模レコメンデーションシステムに展開された最初の完全自律的なランキング最適化エージェントであるSortifyを紹介する。
エージェントは、ランク付け最適化を継続的影響交換として再設定し、診断からパラメータ展開までの完全なループを閉じる。
Sortifyは2つの東南アジア市場で展開されている。
- 参考スコア(独自算出の注目度): 9.300614085821612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommendation ranking is fundamentally an influence allocation problem: a sorting formula distributes ranking influence among competing factors, and the business outcome depends on finding the optimal "exchange rates" among them. However, offline proxy metrics systematically misjudge how influence reallocation translates to online impact, with asymmetric bias across metrics that a single calibration factor cannot correct. We present Sortify, the first fully autonomous LLM-driven ranking optimization agent deployed in a large-scale production recommendation system. The agent reframes ranking optimization as continuous influence exchange, closing the full loop from diagnosis to parameter deployment without human intervention. It addresses structural problems through three mechanisms: (1) a dual-channel framework grounded in Savage's Subjective Expected Utility (SEU) that decouples offline-online transfer correction (Belief channel) from constraint penalty adjustment (Preference channel); (2) an LLM meta-controller operating on framework-level parameters rather than low-level search variables; (3) a persistent Memory DB with 7 relational tables for cross-round learning. Its core metric, Influence Share, provides a decomposable measure where all factor contributions sum to exactly 100%. Sortify has been deployed across two Southeast Asian markets. In Country A, the agent pushed GMV from -3.6% to +9.2% within 7 rounds with peak orders reaching +12.5%. In Country B, a cold-start deployment achieved +4.15% GMV/UU and +3.58% Ads Revenue in a 7-day A/B test, leading to full production rollout.
- Abstract(参考訳): 選別式は、競合する要因間でランキングの影響を分配し、ビジネスの結果は、それらのうちの最適な「交換率」を見つけることに依存する。
しかし、オフラインプロキシメトリクスは、単一のキャリブレーション係数が正し得ない指標に対して非対称なバイアスを伴って、リアルタイムロケーションがオンラインインパクトにどのように影響するかを体系的に誤解した。
大規模生産レコメンデーションシステムに展開された、最初の完全自律型LCMによるランキング最適化エージェントであるSortifyを提案する。
エージェントは、評価最適化を継続的影響交換として再設定し、診断からパラメータ展開までの完全なループを人間の介入なしに閉じる。
サベージの主観的期待ユーティリティ(SEU)に根ざした二重チャネルフレームワークは、制約ペナルティ調整(Preference channel)からオフラインオンライン転送補正(Belief channel)を分離し、低レベルの検索変数ではなくフレームワークレベルのパラメータを操作するLLMメタコントローラ、そして、クロスラウンド学習のための7つのリレーショナルテーブルを備えた永続メモリDBである。
その中心となる計量であるインフルエンス・シェア(英語版)は、すべての因子が完全に100%となる分解可能な測度を提供する。
Sortifyは2つの東南アジア市場で展開されている。
カントリーAでは、GMVを7ラウンド中3.6%から+9.2%に押し上げ、ピークオーダーは+12.5%に達した。
カントリーBでは、コールドスタートの配備は7日間のA/Bテストで+4.15% GMV/UUと+3.58% Ads revenueを達成した。
関連論文リスト
- CaliCausalRank: Calibrated Multi-Objective Ad Ranking with Robust Counterfactual Utility Optimization [9.601427882648116]
CaliCausalRankは、トレーニング時間スケールのキャリブレーション、制約ベースの多目的最適化、堅牢な対実的ユーティリティ推定を統合するフレームワークである。
提案手法は,ポストホック処理ではなく,第1級のトレーニング目標としてスコアキャリブレーションを扱い,制約満足度に対するラグランジアン緩和を採用し,信頼性の高いオフライン評価のための分散再現型反事実推定器を実現する。
論文 参考訳(メタデータ) (2026-02-21T10:35:12Z) - RGAlign-Rec: Ranking-Guided Alignment for Latent Query Reasoning in Recommendation Systems [25.34524038198569]
本稿では,プロアクティブな意図予測のための閉ループアライメントフレームワーク RGAlign-Rec を提案する。
また、マルチステージトレーニングパラダイムであるRGA(Ranning-Guided Alignment)も導入する。
我々のフレームワークはGAUCで0.12%向上し、エラー率を3.52%削減し、Recall@3で0.56%改善した。
論文 参考訳(メタデータ) (2026-02-13T14:38:02Z) - The Reward Model Selection Crisis in Personalized Alignment [38.08221267202287]
標準的なRM精度は、展開可能なパーソナライズアライメントの選択基準として破滅的に失敗することを示す。
我々は、RGDスコアリング機能が好ましくない応答と好ましくない応答とを正しく区別するかどうかの指標であるポリシー精度を導入する。
Pref-LaMPも導入しています。
論文 参考訳(メタデータ) (2025-12-28T20:27:15Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - COPR: Consistency-Oriented Pre-Ranking for Online Advertising [27.28920707332434]
オンライン広告のための一貫性指向のプレグレードフレームワークを提案する。
チャンクベースのサンプリングモジュールとプラグアンドプレイのランクアライメントモジュールを使用して、ECPMでランク付けされた結果の一貫性を明示的に最適化する。
Taobaoのディスプレイ広告システムに展開すると、最大で+12.3%のCTRと+5.6%のRPMを実現している。
論文 参考訳(メタデータ) (2023-06-06T09:08:40Z) - Joint Optimization of Ranking and Calibration with Contextualized Hybrid
Model [24.66016187602343]
本稿では,短時間でランキング・アンド・アビリティ(JRC)を最適化する手法を提案する。
JRCは、サンプルのロジット値を異なるラベルで対比することでランキング能力を向上し、ロジットサブトラクションの関数である予測確率を制約する。
JRCはAlibabaのディスプレイ広告プラットフォームにデプロイされており、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-08-12T08:32:13Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。