論文の概要: Dual-Rerank: Fusing Causality and Utility for Industrial Generative Reranking
- arxiv url: http://arxiv.org/abs/2604.07420v1
- Date: Wed, 08 Apr 2026 14:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.466829
- Title: Dual-Rerank: Fusing Causality and Utility for Industrial Generative Reranking
- Title(参考訳): Dual-Rerank: 産業用ジェネレーティブリグレードの因果性と実用性
- Authors: Chao Zhang, Shuai Lin, ChengLei Dai, Ye Qian, Fan Mingyang, Yi Zhang, Yi Wang, Jingwei Zhuo,
- Abstract要約: Kuaishouは毎日4億人のアクティブユーザーを提供し、毎日何億もの検索クエリを処理している。
最終決定層として、ページ全体のユーティリティを最適化してユーザエクスペリエンスを決定する。
本稿では,産業再編を目的とした統合フレームワークであるDual-Rerankを提案する。
- 参考スコア(独自算出の注目度): 11.52944506792799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kuaishou serves over 400 million daily active users, processing hundreds of millions of search queries daily against a repository of tens of billions of short videos. As the final decision layer, the reranking stage determines user experience by optimizing whole-page utility. While traditional score-and-sort methods fail to capture combinatorial dependencies, Generative Reranking offers a superior paradigm by directly modeling the permutation probability. However, deploying Generative Reranking in such a high-stakes environment faces a fundamental dual dilemma: 1) the structural trade-off where Autoregressive (AR) models offer superior Sequential modeling but suffer from prohibitive latency, versus Non-Autoregressive (NAR) models that enable efficiency but lack dependency capturing; 2) the optimization gap where Supervised Learning faces challenges in directly optimizing whole-page utility, while Reinforcement Learning (RL) struggles with instability in high-throughput data streams. To resolve this, we propose Dual-Rerank, a unified framework designed for industrial reranking that bridges the structural gap via Sequential Knowledge Distillation and addresses the optimization gap using List-wise Decoupled Reranking Optimization (LDRO) for stable online RL. Extensive A/B testing on production traffic demonstrates that Dual-Rerank achieves State-of-the-Art performance, significantly improving User satisfaction and Watch Time while drastically reducing inference latency compared to AR baselines.
- Abstract(参考訳): Kuaishouは毎日4億人のアクティブユーザーを提供し、毎日何十億もの検索クエリを処理している。
最終決定層として、ページ全体のユーティリティを最適化してユーザエクスペリエンスを決定する。
従来のスコア・アンド・ソート法は組合せ依存を捉えるのに失敗するが、ジェネレーティブ・リグレードは置換確率を直接モデル化することで優れたパラダイムを提供する。
しかし、このようなハイテイクな環境でジェネレーティブリグレードをデプロイすることは、基本的な二重ジレンマに直面します。
1)Autoregressive(AR)モデルが優れたシーケンスモデリングを提供するが、非Autoregressive(NAR)モデルに対して、非Autoregressive(NAR)モデルでは効率性はあるものの依存性の捕捉が欠如している構造的トレードオフ。
2) Supervised Learningがページ全体のユーティリティを直接最適化する上で問題となる最適化のギャップに対して,Reinforcement Learning(RL)は高スループットデータストリームの不安定性に悩まされている。
この問題を解決するために、Dual-Rerankを提案する。Dual-Rerankは、産業的リグレード用に設計され、シーケンシャル知識蒸留を介して構造的ギャップをブリッジし、安定したオンラインRLのためのリストワイドデカップリング・リサイクリング最適化(LDRO)を用いて最適化ギャップに対処する。
運用トラフィック上での大規模なA/Bテストは、Dual-RerankがState-of-the-Artのパフォーマンスを実現し、ユーザ満足度とウォッチタイムを大幅に改善し、ARベースラインに比べて推論レイテンシを大幅に削減したことを示している。
関連論文リスト
- Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - Rethinking LLM-Driven Heuristic Design: Generating Efficient and Specialized Solvers via Dynamics-Aware Optimization [21.449921296295884]
本研究では,コンバージェンス・アウェア・ヒューリスティックス(DASH, Dynamics-Aware Heuristics)を提案する。
DASHは、さまざまな問題スケールにわたる最先端のベースラインのソリューション品質を越えながら、ランタイム効率を3倍以上改善します。
論文 参考訳(メタデータ) (2026-01-14T05:06:42Z) - Each Prompt Matters: Scaling Reinforcement Learning Without Wasting Rollouts on Hundred-Billion-Scale MoE [16.58714489761542]
提案するCompassMax-V3-Thinkingは,1つの原理に基づいて構築された新しいRLフレームワークでトレーニングされた100億規模のMoE推論モデルである。
これらの課題を克服するために、いくつかの統一されたイノベーションを導入します。
結果として得られるモデルは、内部評価と公開評価の両方で強力なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-12-08T16:57:43Z) - Benchmarking Generative AI Against Bayesian Optimization for Constrained Multi-Objective Inverse Design [0.15293427903448018]
本稿では,制約付き多目的回帰タスクを解くための生成可能な言語モデル(LLM)の性能について検討する。
最高の性能のLDM(Math-7B)は1.21の世代距離(GD)を達成した。
この知見は, 樹脂, レオロジー, 化学特性の定式化設計の最適化に, 直接工業的応用が期待できる。
論文 参考訳(メタデータ) (2025-10-29T10:37:09Z) - OneRec-V2 Technical Report [93.91714323473678]
OneRecは、自己回帰生成タスクとしてレコメンデーションを再構築し、高いモデルFLOPの利用を達成する。
Lazy Decoder-Only Architecture: エンコーダボトルネックを排除し、全体の計算を94%削減し、トレーニングリソースを90%削減する。
現実のユーザインタラクションによる優先度調整: ユーザの好みに合うように、継続意識のリワードシェイピングとアダプティブ比クリッピングを組み込む。
論文 参考訳(メタデータ) (2025-08-28T15:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。