論文の概要: Multi-Modal Video Feature Extraction for Popularity Prediction
- arxiv url: http://arxiv.org/abs/2501.01422v1
- Date: Thu, 02 Jan 2025 18:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:22.878032
- Title: Multi-Modal Video Feature Extraction for Popularity Prediction
- Title(参考訳): 人気度予測のためのマルチモーダル映像特徴抽出
- Authors: Haixu Liu, Wenning Wang, Haoxiang Zheng, Penghao Jiang, Qirui Wang, Ruiqing Yan, Qiuzhuang Sun,
- Abstract要約: 本研究は,ビデオ自体とその関連機能を用いて,ショートビデオの人気を予測することを目的としている。
人気度は、ビューカウント、例えば、コメントカウント、シェアカウントの4つの主要なエンゲージメント指標によって測定される。
本研究では,異なるアーキテクチャの映像分類モデルとトレーニング手法をバックボーンネットワークとして利用し,映像モダリティの特徴を抽出する。
- 参考スコア(独自算出の注目度): 2.1149978544067154
- License:
- Abstract: This work aims to predict the popularity of short videos using the videos themselves and their related features. Popularity is measured by four key engagement metrics: view count, like count, comment count, and share count. This study employs video classification models with different architectures and training methods as backbone networks to extract video modality features. Meanwhile, the cleaned video captions are incorporated into a carefully designed prompt framework, along with the video, as input for video-to-text generation models, which generate detailed text-based video content understanding. These texts are then encoded into vectors using a pre-trained BERT model. Based on the six sets of vectors mentioned above, a neural network is trained for each of the four prediction metrics. Moreover, the study conducts data mining and feature engineering based on the video and tabular data, constructing practical features such as the total frequency of hashtag appearances, the total frequency of mention appearances, video duration, frame count, frame rate, and total time online. Multiple machine learning models are trained, and the most stable model, XGBoost, is selected. Finally, the predictions from the neural network and XGBoost models are averaged to obtain the final result.
- Abstract(参考訳): 本研究は,ビデオ自体とその関連機能を用いて,ショートビデオの人気を予測することを目的としている。
人気度は、ビューカウント、例えば、コメントカウント、シェアカウントの4つの主要なエンゲージメント指標によって測定される。
本研究では,異なるアーキテクチャの映像分類モデルとトレーニング手法をバックボーンネットワークとして利用し,映像モダリティの特徴を抽出する。
一方、クリーン化されたビデオキャプションは、ビデオとともに慎重に設計されたプロンプト・フレームワークに組み込まれ、詳細なテキストベースのビデオコンテンツ理解を生成するビデオ・テキスト生成モデルの入力となる。
これらのテキストは、事前訓練されたBERTモデルを使用してベクトルに符号化される。
上記の6つのベクトルセットに基づいて、ニューラルネットワークは4つの予測指標それぞれに対してトレーニングされる。
さらに,ビデオおよび表データに基づくデータマイニングと特徴工学を行い,ハッシュタグの出現頻度,参照出現頻度,ビデオの長さ,フレーム数,フレームレート,オンラインの総時間などの実用的特徴を構築した。
複数の機械学習モデルがトレーニングされ、最も安定したモデルであるXGBoostが選択される。
最後に、ニューラルネットワークとXGBoostモデルからの予測を平均化し、最終的な結果を得る。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation [43.90887811621963]
本稿では,ビデオキャプションや質問応答などのビデオ・テキスト生成タスクのための2段階事前学習フレームワークを提案する。
生成エンコーダ・デコーダモデルは、まず、画像言語データに基づいて、基本概念を学ぶために、共同で事前訓練される。
その結果、VoiceOFAモデルは、4つのVideo Captioningベンチマークで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-05-04T23:27:21Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - A Multi-modal Deep Learning Model for Video Thumbnail Selection [0.0]
良いサムネイルは、視聴者の注意を引くと同時に、ビデオの内容を最大限に表現するフレームであるべきです。
本稿では,映像のタイトル,説明,音声を含むコンテンツの定義を拡張し,これらのモダリティによって提供される情報を選択モデルで活用する。
我々の知る限りでは、我々はビデオサムネイルを選択するためのマルチモーダル深層学習モデルを提案しており、これは以前のState-of-The-Artモデルに勝っている。
論文 参考訳(メタデータ) (2020-12-31T21:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。