論文の概要: A Long-term Value Prediction Framework In Video Ranking
- arxiv url: http://arxiv.org/abs/2602.17058v1
- Date: Thu, 19 Feb 2026 04:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.62464
- Title: A Long-term Value Prediction Framework In Video Ranking
- Title(参考訳): ビデオランキングにおける長期価値予測フレームワーク
- Authors: Huabin Chen, Xinao Wang, Huiping Chu, Keqin Xu, Chenhao Zhai, Chenyi Wang, Kai Meng, Yuning Jiang,
- Abstract要約: 本稿では、位置バイアス、帰属曖昧性、時間的制限という3つの課題に対処するランキングステージLTVフレームワークを提案する。
このフレームワークは、Taobaoのプロダクションシステムに10億規模でデプロイされ、持続的なエンゲージメント向上を実現している。
- 参考スコア(独自算出の注目度): 5.210683083515914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately modeling long-term value (LTV) at the ranking stage of short-video recommendation remains challenging. While delayed feedback and extended engagement have been explored, fine-grained attribution and robust position normalization at billion-scale are still underdeveloped. We propose a practical ranking-stage LTV framework addressing three challenges: position bias, attribution ambiguity, and temporal limitations. (1) Position bias: We introduce a Position-aware Debias Quantile (PDQ) module that normalizes engagement via quantile-based distributions, enabling position-robust LTV estimation without architectural changes. (2) Attribution ambiguity: We propose a multi-dimensional attribution module that learns continuous attribution strengths across contextual, behavioral, and content signals, replacing static rules to capture nuanced inter-video influence. A customized hybrid loss with explicit noise filtering improves causal clarity. (3) Temporal limitations: We present a cross-temporal author modeling module that builds censoring-aware, day-level LTV targets to capture creator-driven re-engagement over longer horizons; the design is extensible to other dimensions (e.g., topics, styles). Offline studies and online A/B tests show significant improvements in LTV metrics and stable trade-offs with short-term objectives. Implemented as task augmentation within an existing ranking model, the framework supports efficient training and serving, and has been deployed at billion-scale in Taobao's production system, delivering sustained engagement gains while remaining compatible with industrial constraints.
- Abstract(参考訳): ショートビデオレコメンデーションのランク付け段階における長期的価値(LTV)の正確なモデリングは依然として困難である。
遅延フィードバックと拡張エンゲージメントが検討されているが、数十億規模の微粒な帰属と頑健な位置正規化はまだ未開発である。
本稿では,位置バイアス,帰属曖昧性,時間的制限という3つの課題に対処する,実用的なランキングステージLTVフレームワークを提案する。
1) 位置バイアス: 位置認識型デビアス量子(PDQ)モジュールを導入し, 量子的分布によるエンゲージメントを正規化し, 構造的変化を伴わずに位置ローバストLTV推定を可能にする。
2) 属性の曖昧さ: 文脈的, 行動的, 内容的信号間の連続的な属性強度を学習し, 静的な規則を置き換え, 映像間の影響を捉える多次元属性モジュールを提案する。
明示的なノイズフィルタリングによるハイブリッド損失のカスタマイズにより、因果的明瞭度が向上する。
(3) 時間的制約: より長い地平線上でクリエーター主導による再エンゲージメントを捉えるために、検閲対応の日次LTVターゲットを構築する、時空間の著者モデリングモジュールを提示する。
オフライン調査とオンラインA/Bテストは、短期目標によるLTVメトリクスと安定したトレードオフの大幅な改善を示している。
既存のランキングモデル内でタスク強化として実装されたこのフレームワークは、効率的なトレーニングとサービスをサポートし、Taobaoの生産システムでは数十億ドル規模でデプロイされ、工業的制約との互換性を維持しながら、持続的なエンゲージメントの向上を実現している。
関連論文リスト
- MTS-JEPA: Multi-Resolution Joint-Embedding Predictive Architecture for Time-Series Anomaly Prediction [9.41179596958512]
MTS-JEPAは,ソフトコードブックのボトルネックと多解像度の予測対象を統合した特殊なアーキテクチャである。
この設計は、経時的ショックと長期的トレンドを明確に分離し、コードブックを使用して離散的な状態遷移をキャプチャする。
論文 参考訳(メタデータ) (2026-02-04T15:11:29Z) - Speak While Watching: Unleashing TRUE Real-Time Video Understanding Capability of Multimodal Large Language Models [15.345320064963575]
MLLM(Multimodal Large Language Models)は多くのタスクで高いパフォーマンスを実現しているが、ほとんどのシステムはオフライン推論に限られている。
最近のストリーミング手法は、知覚と生成をインターリーブすることでレイテンシを低減するが、それでもシーケンシャルな知覚生成サイクルを強制する。
本稿では,3つの設計(オーバーラップ,グループ分離,ギャップ分離)により位置連続性を緩和する並列ストリーミングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-11T10:12:11Z) - FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing [97.35186681023025]
FFP-300Kは、720p解像度と81フレームの高忠実度ビデオペアの大規模データセットである。
本稿では,第1フレームの外観維持とソース映像の動作保存の緊張を解消する,真の誘導不要なFFPのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-05T01:46:22Z) - VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning [49.35834435935727]
VideoZoomerは、MLLMが推論中に視覚的焦点を制御することができる新しいエージェントフレームワークである。
私たちの7Bモデルは、多種多様な複雑な推論パターンを提供し、幅広いビデオ理解と推論のベンチマークに強いパフォーマンスをもたらします。
これらの創発的な能力は、既存のオープンソースモデルを一貫して上回り、挑戦的なタスクでプロプライエタリなシステムをライバルにさえできる。
論文 参考訳(メタデータ) (2025-12-26T11:43:21Z) - TBT-Former: Learning Temporal Boundary Distributions for Action Localization [1.2461503242570642]
時間的境界変換器 (TBT-Former) は時間的行動ローカライゼーションのための新しいアーキテクチャである。
GFL(Generalized Focal Loss)の原則にインスパイアされたこの新しいヘッドは、境界回帰の難しいタスクを、より柔軟な確率分布学習問題として再考する。
TBT-Formerは、競争力の高いTHUMOS14とEPIC-Kitchens 100データセットに新たなレベルのパフォーマンスを設定できる。
論文 参考訳(メタデータ) (2025-12-01T05:38:13Z) - TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding [28.79516973256083]
時間的ビデオグラウンディングは、自然言語クエリに対応するビデオセグメントを正確にローカライズすることを目的としている。
テンポラルビデオグラウンド(TAR-TVG)のためのタイムスタンプアンカー制約推論を提案する。
TAR-TVGは、思考内容の明示的な監督を強制するために、推論プロセス内にタイムスタンプアンカーを導入する。
論文 参考訳(メタデータ) (2025-08-11T06:59:32Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。