論文の概要: ContentCTR: Frame-level Live Streaming Click-Through Rate Prediction
with Multimodal Transformer
- arxiv url: http://arxiv.org/abs/2306.14392v1
- Date: Mon, 26 Jun 2023 03:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:03:29.268451
- Title: ContentCTR: Frame-level Live Streaming Click-Through Rate Prediction
with Multimodal Transformer
- Title(参考訳): ContentCTR:マルチモーダルトランスを用いたフレームレベルのライブストリーミングクリックスルーレート予測
- Authors: Jiaxin Deng, Dong Shen, Shiyao Wang, Xiangyu Wu, Fan Yang, Guorui
Zhou, Gaofeng Meng
- Abstract要約: フレームレベルのCTR予測にマルチモーダルトランスを用いたContentCTRモデルを提案する。
実世界のシナリオと公開データセットの両方で広範な実験を行い、ContentCTRモデルは、リアルタイムのコンテンツ変更をキャプチャする従来のレコメンデーションモデルよりも優れています。
- 参考スコア(独自算出の注目度): 31.10377461705053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, live streaming platforms have gained immense popularity as
they allow users to broadcast their videos and interact in real-time with hosts
and peers. Due to the dynamic changes of live content, accurate recommendation
models are crucial for enhancing user experience. However, most previous works
treat the live as a whole item and explore the Click-through-Rate (CTR)
prediction framework on item-level, neglecting that the dynamic changes that
occur even within the same live room. In this paper, we proposed a ContentCTR
model that leverages multimodal transformer for frame-level CTR prediction.
First, we present an end-to-end framework that can make full use of multimodal
information, including visual frames, audio, and comments, to identify the most
attractive live frames. Second, to prevent the model from collapsing into a
mediocre solution, a novel pairwise loss function with first-order difference
constraints is proposed to utilize the contrastive information existing in the
highlight and non-highlight frames. Additionally, we design a temporal
text-video alignment module based on Dynamic Time Warping to eliminate noise
caused by the ambiguity and non-sequential alignment of visual and textual
information. We conduct extensive experiments on both real-world scenarios and
public datasets, and our ContentCTR model outperforms traditional
recommendation models in capturing real-time content changes. Moreover, we
deploy the proposed method on our company platform, and the results of online
A/B testing further validate its practical significance.
- Abstract(参考訳): 近年、ライブストリーミングプラットフォームは、ユーザーがビデオをブロードキャストしたり、ホストや仲間とリアルタイムでやりとりできるようになり、大きな人気を集めている。
ライブコンテンツの動的変化により、ユーザエクスペリエンスの向上には正確なレコメンデーションモデルが不可欠である。
しかし、これまでのほとんどの研究は、ライブ全体をアイテムとして扱い、Click-through-Rate(CTR)予測フレームワークをアイテムレベルで探求し、同じリビングルーム内でも発生する動的な変化を無視した。
本稿では,フレームレベルのCTR予測にマルチモーダルトランスを用いたContentCTRモデルを提案する。
まず,視覚的フレームや音声,コメントなどのマルチモーダル情報をフル活用して,最も魅力的なライブフレームを識別するためのエンドツーエンドフレームワークを提案する。
第二に、モデルが中間解に崩壊することを防ぐため、ハイライトフレームと非ハイライトフレームに存在するコントラスト情報を利用するために、一階差分制約を持つ新しいペアワイズ損失関数を提案する。
さらに,映像・テキスト情報の曖昧性と非系列的アライメントに起因するノイズを除去するために,動的時間ゆがみに基づく時間的テキスト・ビデオアライメントモジュールを設計した。
実世界のシナリオと公開データセットの両方で広範な実験を行い、ContentCTRモデルは、リアルタイムのコンテンツ変更をキャプチャする従来のレコメンデーションモデルよりも優れています。
さらに,提案手法を企業プラットフォームに展開し,オンラインa/bテストの結果から,その実用的意義をさらに検証した。
関連論文リスト
- A Multimodal Transformer for Live Streaming Highlight Prediction [26.787089919015983]
ライブストリーミングは、将来のフレームなしで推論し、複雑なマルチモーダルインタラクションを処理するモデルを必要とする。
モーダル信号の時間的シフトを扱うための新しいモーダル時間アライメントモジュールを提案する。
本稿では,大規模データセットから学習し,ユーザの暗黙的なフィードバックを弱い監視信号として活用するための,境界対応Pairwise Lossを提案する。
論文 参考訳(メタデータ) (2024-06-15T04:59:19Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Online Video Instance Segmentation via Robust Context Fusion [36.376900904288966]
ビデオインスタンスセグメンテーション(VIS)は、ビデオシーケンス内のオブジェクトインスタンスを分類、セグメンテーション、追跡することを目的としている。
最近のトランスフォーマーベースのニューラルネットワークは、VISタスクのモデリングの強力な能力を実証している。
そこで本稿では,VISをオンライン方式で扱うための堅牢なコンテキスト融合ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T15:04:50Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。