論文の概要: Bridging Short Videos and Live Streams: Reasoning-Guided Multimodal LLMs for Cross-Domain Representation Learning
- arxiv url: http://arxiv.org/abs/2606.04448v1
- Date: Wed, 03 Jun 2026 04:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.552469
- Title: Bridging Short Videos and Live Streams: Reasoning-Guided Multimodal LLMs for Cross-Domain Representation Learning
- Title(参考訳): ショートビデオとライブストリームのブリッジ: クロスドメイン表現学習のための推論ガイド付きマルチモーダルLCM
- Authors: Le Zhang, Xiaolan Zhu, Yuchen Wang, Shilong Kang, Jiaqi Xue, Xiaoyu Zhang, Xiang Chen, Yalong Guan, Xiangyu Wu, Shijun Wang, Lantao Hu, Kun Gai,
- Abstract要約: Reasoning-Guided Cross-Domain Representation Learning (RGCD-Rep)
RGCD-Repは、短いビデオからライブストリームへのクロスドメインレコメンデーションのための推論誘導フレームワークである。
完全にデプロイされ、毎日4億人のユーザーが利用している。
- 参考スコア(独自算出の注目度): 38.08336224801579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As live streaming services grow, many platforms offer short videos and live streams to meet diverse needs. Short videos carry substantial traffic and rich behavior signals, whereas live streaming is a core conversion scenario with sparse behavior data, making cold start severe. Transferring user interests from short videos to live streaming recommendation can alleviate these issues. Meanwhile, short videos and live streams are complex multimodal items, and integrating multimodal signals improves recommendation performance. Although Multimodal Large Language Models (MLLMs) show strong multimodal understanding and reasoning, their application to cross-domain recommendation remains underexplored. To this end, we propose Reasoning-Guided Cross-Domain Representation Learning (RGCD-Rep), a reasoning-guided framework for cross-domain recommendation from short videos to live streams. RGCD-Rep introduces MLLM reasoning resource-efficiently and learns transferable item representations guided by behavioral collaboration via two-stage training. First, reasoning-aware distillation lets a frozen teacher MLLM generate structured cross-domain reasoning knowledge and distills it into a lightweight student MLLM. Second, transferability-guided cross-domain representation learning decomposes item representations into transferable and domain residual representations. The resulting representations are computed offline and integrated into downstream retrieval tasks, enabling low-cost industrial deployment. Extensive offline experiments demonstrate RGCD-Rep's superiority. After deployment in Kuaishou's live streaming recommendation system, A/B tests show significant gains across multiple core business metrics, confirming its effectiveness and practicality in real industrial scenarios. RGCD-Rep is fully deployed and serves over 400 million users daily.
- Abstract(参考訳): ライブストリーミングサービスが成長するにつれ、多くのプラットフォームが様々なニーズを満たすためのショートビデオとライブストリームを提供している。
ショートビデオは、かなりのトラフィックとリッチな行動信号を持ち、ライブストリーミングはスパースな行動データを伴う中核的な変換シナリオであり、コールドスタートを厳しくする。
短いビデオからライブストリーミングレコメンデーションへのユーザの関心を移すことは、これらの問題を緩和する。
一方、ショートビデオとライブストリームは複雑なマルチモーダルアイテムであり、マルチモーダル信号を統合することでレコメンデーション性能が向上する。
MLLM(Multimodal Large Language Models)は,強いマルチモーダル理解と推論を示すが,クロスドメインレコメンデーションへの応用はいまだ検討されていない。
この目的のために,短いビデオからライブストリームへのクロスドメインレコメンデーションのための推論誘導フレームワークであるReasoning-Guided Cross-Domain Representation Learning (RGCD-Rep)を提案する。
RGCD-Repは、MLLM推論をリソース効率よく導入し、2段階のトレーニングを通じて行動協調によって導かれる伝達可能なアイテム表現を学習する。
まず、推論を意識した蒸留により、凍結した教師MLLMが構造化されたクロスドメイン推論知識を生成し、軽量の学生MLLMに蒸留する。
第二に、転送可能性誘導型クロスドメイン表現学習は、アイテム表現を転送可能およびドメイン残留表現に分解する。
結果の表現はオフラインで計算され、ダウンストリーム検索タスクに統合され、低コストの産業展開を可能にする。
大規模なオフライン実験はRGCD-Repの優位性を示している。
Kuaishouのライブストリーミングレコメンデーションシステムにデプロイした後、A/Bテストは複数のコアビジネスメトリクスに対して大きな効果を示し、実際の産業シナリオにおけるその有効性と実用性を確認した。
RGCD-Repは完全にデプロイされており、毎日4億人のユーザにサービスを提供している。
関連論文リスト
- X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding [29.479188501343412]
マルチストリームストリーミング理解に特化した最初のベンチマークであるX-Streamを紹介する。
厳格にキュレートされた4,220のQAペアを932ビデオにコンパイルし、X-Streamはマルチウィンドウ、マルチビュー、マルチデバイスシナリオで11のサブタスクを評価している。
論文 参考訳(メタデータ) (2026-06-01T16:52:11Z) - A Survey on Diffusion Language Models [30.00199970146068]
拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムの代替である。
DLMは、推論遅延を減らし、双方向のコンテキストをキャプチャすることに固有の利点がある。
近年の進歩により、DLMは自己回帰に匹敵する性能を示すようになった。
論文 参考訳(メタデータ) (2025-08-14T17:47:22Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-28T01:25:37Z) - ASR-enhanced Multimodal Representation Learning for Cross-Domain Product Retrieval [28.13183873658186]
電子商取引はますますマルチメディア化され、画像やショートビデオ、ライブストリームのプロモーションなど、幅広い領域で商品が展示されている。
広義のシナリオでは、製品内変異が大きく、製品間類似度が高いため、視覚のみの表現は不十分である。
ASRによるマルチモーダル製品表現学習(AMPere)を提案する。
論文 参考訳(メタデータ) (2024-08-06T06:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。