論文の概要: A Multimodal Transformer for Live Streaming Highlight Prediction
- arxiv url: http://arxiv.org/abs/2407.12002v1
- Date: Sat, 15 Jun 2024 04:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 11:30:12.152198
- Title: A Multimodal Transformer for Live Streaming Highlight Prediction
- Title(参考訳): ライブストリーミングハイライト予測のためのマルチモーダルトランス
- Authors: Jiaxin Deng, Shiyao Wang, Dong Shen, Liqin Zhao, Fan Yang, Guorui Zhou, Gaofeng Meng,
- Abstract要約: ライブストリーミングは、将来のフレームなしで推論し、複雑なマルチモーダルインタラクションを処理するモデルを必要とする。
モーダル信号の時間的シフトを扱うための新しいモーダル時間アライメントモジュールを提案する。
本稿では,大規模データセットから学習し,ユーザの暗黙的なフィードバックを弱い監視信号として活用するための,境界対応Pairwise Lossを提案する。
- 参考スコア(独自算出の注目度): 26.787089919015983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, live streaming platforms have gained immense popularity. Traditional video highlight detection mainly focuses on visual features and utilizes both past and future content for prediction. However, live streaming requires models to infer without future frames and process complex multimodal interactions, including images, audio and text comments. To address these issues, we propose a multimodal transformer that incorporates historical look-back windows. We introduce a novel Modality Temporal Alignment Module to handle the temporal shift of cross-modal signals. Additionally, using existing datasets with limited manual annotations is insufficient for live streaming whose topics are constantly updated and changed. Therefore, we propose a novel Border-aware Pairwise Loss to learn from a large-scale dataset and utilize user implicit feedback as a weak supervision signal. Extensive experiments show our model outperforms various strong baselines on both real-world scenarios and public datasets. And we will release our dataset and code to better assess this topic.
- Abstract(参考訳): 近年、ライブストリーミングプラットフォームは大きな人気を集めている。
従来のビデオハイライト検出は主に視覚的特徴に焦点を当てており、過去のコンテンツと将来のコンテンツの両方を予測に利用している。
しかし、ライブストリーミングでは、将来のフレームなしで推論し、画像、オーディオ、テキストコメントを含む複雑なマルチモーダルインタラクションを処理するモデルが必要である。
これらの問題に対処するために,歴史的ルックバックウィンドウを組み込んだマルチモーダルトランスフォーマーを提案する。
モーダル信号の時間的シフトを扱うための新しいモーダル時間アライメントモジュールを提案する。
さらに、手動のアノテーションが制限された既存のデータセットを使用することは、トピックが常に更新され、変更されるライブストリーミングには不十分である。
そこで本稿では,大規模データセットから学習し,ユーザの暗黙的なフィードバックを弱い監視信号として活用する,境界対応Pairwise Lossを提案する。
大規模な実験により、我々のモデルは現実世界のシナリオと公開データセットの両方において、様々な強力なベースラインを上回ります。
そして、このトピックをよりよく評価するために、データセットとコードを公開します。
関連論文リスト
- MMBee: Live Streaming Gift-Sending Recommendations via Multi-Modal Fusion and Behaviour Expansion [18.499672566131355]
ギフトインタラクションの正確なモデリングは、ユーザのエクスペリエンスを向上するだけでなく、ストリーマーの収益も増大させる。
従来のレコメンデーション問題として,ライブストリーミングギフト予測に関する先行研究がある。
実時間マルチモーダル・フュージョンとビヘイビア・エクスパンジョンに基づくMMBeeを提案する。
論文 参考訳(メタデータ) (2024-06-15T04:59:00Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - ContentCTR: Frame-level Live Streaming Click-Through Rate Prediction
with Multimodal Transformer [31.10377461705053]
フレームレベルのCTR予測にマルチモーダルトランスを用いたContentCTRモデルを提案する。
実世界のシナリオと公開データセットの両方で広範な実験を行い、ContentCTRモデルは、リアルタイムのコンテンツ変更をキャプチャする従来のレコメンデーションモデルよりも優れています。
論文 参考訳(メタデータ) (2023-06-26T03:04:53Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - MultiPath++: Efficient Information Fusion and Trajectory Aggregation for
Behavior Prediction [42.563865078323204]
MultiPath++は、一般的なベンチマークで最先端のパフォーマンスを実現する将来の予測モデルである。
提案手法は,Argoverse Motion Forecasting CompetitionとOpen Motion Prediction Challengeにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-29T21:36:53Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z) - Graph2Kernel Grid-LSTM: A Multi-Cued Model for Pedestrian Trajectory
Prediction by Learning Adaptive Neighborhoods [10.57164270098353]
本稿では,歩行者地区がデザインに適応しうることを提案することによって,インタラクションモデリングの新しい視点を示す。
我々のモデルは、いくつかの公開テストされた監視ビデオに類似した特徴を照合する最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-07-03T19:05:48Z) - Multimodal Matching Transformer for Live Commenting [97.06576354830736]
自動的なライブコメントは、視聴者にリアルタイムでビデオに対するコメントを提供することを目的としている。
このタスクの最近の研究は、コメントを生成するエンコーダ-デコーダモデルを採用している。
本稿では,コメント,視覚,音声間の関係を捉えるマルチモーダルマッチング変換器を提案する。
論文 参考訳(メタデータ) (2020-02-07T07:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。