論文の概要: FLUID: From Ephemeral IDs to Multimodal Semantic Codes for Industrial-Scale Livestreaming Recommendation
- arxiv url: http://arxiv.org/abs/2605.21832v2
- Date: Tue, 26 May 2026 21:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.860836
- Title: FLUID: From Ephemeral IDs to Multimodal Semantic Codes for Industrial-Scale Livestreaming Recommendation
- Title(参考訳): FLUID:産業規模のライブストリーミングレコメンデーションのための一時IDからマルチモーダルセマンティックコードへ
- Authors: Xinhang Yuan, Zexi Huang, Anjia Cao, Xudong Lu, Zikai Wang, Penghao Zhou, Chang Liu, Wentao Guo, Qinglei Wang,
- Abstract要約: FLUIDは、候補側のアイテムIDをプロダクションスケールのライブストリーミングローダからリタイアするためのフレームワークである。
LUCIDと呼ばれる個別の階層的セマンティックコードを生成し、コンテンツに基づく特徴付けを行う。
当社の産業用ライブストリーミングレコメンデーションにデプロイされたユーザベースは、全世界で10億を超えている。
- 参考スコア(独自算出の注目度): 18.833195310715126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern recommender systems rely heavily on ID-based collaborative filtering: each item is represented by a unique ID embedding that accumulates collaborative signals from user interactions. Livestreaming recommendation, however, faces a unique challenge in this paradigm: a live room typically broadcasts for only tens of minutes, so its item ID remains poorly learned in a persistent cold-start state and ID-centric ranking models fail to generalize. We present FLUID, the first framework to fully retire the candidate-side item ID from a production-scale livestreaming ranker. FLUID introduces a cross-domain multimodal encoder, jointly trained on short videos and livestreams, to produce discrete hierarchical semantic codes, called LUCID, for content-based item characterization. To adapt the ranker to LUCID, FLUID further employs a staged warmup scheme: it first incorporates cold, slice-level LUCID as an independent token alongside the ID embedding, and then replaces the ID embedding with warm, room-level LUCID before online incremental training. Deployed on our industrial livestreaming recommenders with a cross-platform combined user base of over one billion globally, FLUID delivers significant online gains of +0.55% Quality Watch Duration, +2.05% Cold-Start Room Views, and +0.05% Active Hours.
- Abstract(参考訳): 現代のレコメンデータシステムは、IDベースのコラボレーティブフィルタリングに大きく依存している。各項目は、ユーザインタラクションからのコラボレーティブシグナルを蓄積するユニークなID埋め込みによって表現される。
しかし、ライブストリーミングのレコメンデーションは、このパラダイムでユニークな課題に直面している: ライブルームは通常、ほんの数分間だけブロードキャストするので、そのアイテムIDは、永続的なコールドスタート状態での学習が不十分であり、ID中心のランキングモデルが一般化に失敗する。
FLUIDは、プロダクションスケールのライブストリーミングランサーから候補側アイテムIDを完全にリタイアする最初のフレームワークである。
FLUIDは、短いビデオとライブストリームで共同で訓練されたクロスドメインマルチモーダルエンコーダを導入し、コンテンツベースのアイテムキャラクタリゼーションのために、LUCIDと呼ばれる独立した階層的なセマンティックコードを生成する。
ランサーをLUCIDに適応させるために、FLUIDはさらにステージドウォームアップ方式を採用しており、まず冷たくスライスレベルのLUCIDをID埋め込みと並行して独立したトークンとして組み込み、その後、オンラインインクリメンタルトレーニングの前に温かい部屋レベルのLUCIDに置き換える。
FLUIDは、当社の産業用ライブストリーミングレコメンデーションに、全世界で10億以上のクロスプラットフォーム統合ユーザベースを配置し、オンライン上の大きな利益として、+0.55%品質監視期間、+2.05%コールドスタートルームビュー、+0.05%アクティブ時間を提供している。
関連論文リスト
- LiveStar: Live Streaming Assistant for Real-World Online Video Understanding [67.71551356747948]
LiveStarは、適応的なストリーミングデコーディングを通じて常時オンのプロアクティブ応答を実現する、先駆的なライブストリーミングアシスタントである。
LiveStar は,(1) 可変長ビデオストリームに対する漸進的なビデオ言語アライメントの実現,動的に進化するフレームシーケンス間の時間的一貫性の維持,(2) 単一前方通過検証による最適なプロアクティブ応答タイミングを決定する応答サイレンスデコードフレームワーク,(3) 最大端メモリ圧縮による10分以上のビデオのオンライン推論によるメモリ認識アクセラレーション,およびストリーミングキー値キャッシュを併用して1.53倍高速推論を実現する。
論文 参考訳(メタデータ) (2025-11-07T15:00:37Z) - UniVid: The Open-Source Unified Video Model [41.15980565061684]
MLLMと拡散デコーダを軽量アダプタで結合する統一アーキテクチャUniVidを提案する。
標準ベンチマークの実験では、最先端のパフォーマンスが示されている。
論文 参考訳(メタデータ) (2025-09-29T02:31:36Z) - From ID-based to ID-free: Rethinking ID Effectiveness in Multimodal Collaborative Filtering Recommendation [12.711479510330436]
ID機能は初期埋め込みを提供するが、セマンティック・リッチネスは欠如している。
ユーザとアイテム毎にユニークな識別子を提供するが、トレーニングされていないデータへの一般化を妨げる。
マルチモーダルな特徴の整合と融合を支援するが、表現シフトにつながる可能性がある。
論文 参考訳(メタデータ) (2025-07-08T06:58:24Z) - Federated Modality-specific Encoders and Multimodal Anchors for Personalized Brain Tumor Segmentation [29.584319651813754]
FedMEMA (Federated modality-specific encoder) とマルチモーダルアンカー (Multimal anchors) が提案されている。
FedMEMAは、モーダル間の不均一性を考慮するために、各モーダルに排他的エンコーダを使用する。
FedMEMAは、マルチモーダル脳腫瘍セグメンテーションのためのBraTS 2020ベンチマークで検証されている。
論文 参考訳(メタデータ) (2024-03-18T14:02:53Z) - Generalizable Re-Identification from Videos with Cycle Association [60.920036335996414]
トレーニングの複雑さの低いre-IDのためのスケーラブルな自己教師型学習手法として,CycAs(CycAs)を提案する。
提案手法に適したLMPビデオという,大規模でラベルのないre-IDデータセットを構築した。
CycAsは、時間的に連続したビデオフレームペア間のインスタンス関連性のサイクル一貫性を強制することによって、re-ID特徴を学習する。
論文 参考訳(メタデータ) (2022-11-07T16:21:57Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - Camera-aware Proxies for Unsupervised Person Re-Identification [60.26031011794513]
本稿では、アノテーションを必要としない純粋に教師なしの人物識別(Re-ID)問題に取り組む。
各クラスタを複数のプロキシに分割し、それぞれのプロキシが同じカメラからのインスタンスを表すことを提案する。
カメラ認識プロキシに基づいて、カメラ内およびカメラ間コントラスト学習コンポーネントをre-idモデル用に設計する。
論文 参考訳(メタデータ) (2020-12-19T12:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。