論文の概要: Delving Deep into Engagement Prediction of Short Videos
- arxiv url: http://arxiv.org/abs/2410.00289v1
- Date: Mon, 30 Sep 2024 23:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:35:59.494959
- Title: Delving Deep into Engagement Prediction of Short Videos
- Title(参考訳): 短いビデオのエンゲージメント予測に深く入り込む
- Authors: Dasong Li, Wenjie Li, Baili Lu, Hongsheng Li, Sizhuo Ma, Gurunandan Krishnan, Jian Wang,
- Abstract要約: 本研究は,ユーザインタラクションが限定されたビデオのエンゲージメント予測の難しさを深く掘り下げるものである。
Snapchatの90,000の現実世界のショートビデオからなる、実質的なデータセットを紹介します。
本手法は,映像コンテンツから映像のエンゲージメントを純粋に予測できることを示す。
- 参考スコア(独自算出の注目度): 34.38399476375175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding and modeling the popularity of User Generated Content (UGC) short videos on social media platforms presents a critical challenge with broad implications for content creators and recommendation systems. This study delves deep into the intricacies of predicting engagement for newly published videos with limited user interactions. Surprisingly, our findings reveal that Mean Opinion Scores from previous video quality assessment datasets do not strongly correlate with video engagement levels. To address this, we introduce a substantial dataset comprising 90,000 real-world UGC short videos from Snapchat. Rather than relying on view count, average watch time, or rate of likes, we propose two metrics: normalized average watch percentage (NAWP) and engagement continuation rate (ECR) to describe the engagement levels of short videos. Comprehensive multi-modal features, including visual content, background music, and text data, are investigated to enhance engagement prediction. With the proposed dataset and two key metrics, our method demonstrates its ability to predict engagements of short videos purely from video content.
- Abstract(参考訳): ソーシャルメディアプラットフォーム上でのユーザ生成コンテンツ(UGC)ショートビデオの人気を理解し、モデル化することは、コンテンツクリエーターやレコメンデーションシステムに幅広い影響を与える重要な課題である。
本研究は,ユーザインタラクションが限定されたビデオのエンゲージメント予測の難しさを深く掘り下げるものである。
意外なことに、過去のビデオ品質評価データセットから得られた平均オピニオンスコアは、ビデオエンゲージメントレベルと強く相関していない。
これを解決するために、Snapchatの90,000の現実世界のUGCショートビデオからなる、実質的なデータセットを紹介します。
視聴数、平均視聴時間、または視聴率に頼らず、通常視聴率(NAWP)とエンゲージメント継続率(ECR)の2つの指標を提案し、ショートビデオのエンゲージメントレベルを記述した。
視覚コンテンツや背景音楽,テキストデータなど,総合的なマルチモーダルな特徴を調査し,エンゲージメント予測を強化する。
提案手法は,提案したデータセットと2つの重要な指標を用いて,映像コンテンツから映像のエンゲージメントを純粋に予測できることを示す。
関連論文リスト
- CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Video Summarization Overview [25.465707307283434]
ビデオ要約は、ビデオのコンパクトな要約を作成することにより、ビデオコンテンツを素早く把握することを容易にする。
本調査は, ディープラーニング技術を活用した最近のアプローチと同様に, 早期研究についても取り上げる。
論文 参考訳(メタデータ) (2022-10-21T03:29:31Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Scaling New Peaks: A Viewership-centric Approach to Automated Content
Curation [4.38301148531795]
本稿では,様々なセグメント識別目標に対応するビューアシップ駆動自動手法を提案する。
衛星テレビ視聴データを用いて、視聴者関心の「シード」セグメントを特定するために、視聴者関心の源泉として、視聴者関心の時系列に統計的異常検出を適用した。
我々は、2019年12月19日にアメリカ合衆国民主党大統領討論会と、2019年ウィンブルドン女子最終討論会で2つのケーススタディを提示した。
論文 参考訳(メタデータ) (2021-08-09T17:17:29Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Feature Re-Learning with Data Augmentation for Video Relevance
Prediction [35.87597969685573]
再学習は、アフィン変換によって与えられた深い機能を新しい空間に投影することで実現される。
本稿では,フレームレベルとビデオレベルの機能に直接依存する新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2020-04-08T05:22:41Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。