論文の概要: A Multi-modal Deep Learning Model for Video Thumbnail Selection
- arxiv url: http://arxiv.org/abs/2101.00073v1
- Date: Thu, 31 Dec 2020 21:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 18:52:06.284283
- Title: A Multi-modal Deep Learning Model for Video Thumbnail Selection
- Title(参考訳): ビデオサムネイル選択のためのマルチモーダル深層学習モデル
- Authors: Zhifeng Yu, Nanchun Shi
- Abstract要約: 良いサムネイルは、視聴者の注意を引くと同時に、ビデオの内容を最大限に表現するフレームであるべきです。
本稿では,映像のタイトル,説明,音声を含むコンテンツの定義を拡張し,これらのモダリティによって提供される情報を選択モデルで活用する。
我々の知る限りでは、我々はビデオサムネイルを選択するためのマルチモーダル深層学習モデルを提案しており、これは以前のState-of-The-Artモデルに勝っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thumbnail is the face of online videos. The explosive growth of videos both
in number and variety underpins the importance of a good thumbnail because it
saves potential viewers time to choose videos and even entice them to click on
them. A good thumbnail should be a frame that best represents the content of a
video while at the same time capturing viewers' attention. However, the
techniques and models in the past only focus on frames within a video, and we
believe such narrowed focus leave out much useful information that are part of
a video. In this paper, we expand the definition of content to include title,
description, and audio of a video and utilize information provided by these
modalities in our selection model. Specifically, our model will first sample
frames uniformly in time and return the top 1,000 frames in this subset with
the highest aesthetic scores by a Double-column Convolutional Neural Network,
to avoid the computational burden of processing all frames in downstream task.
Then, the model incorporates frame features extracted from VGG16, text features
from ELECTRA, and audio features from TRILL. These models were selected because
of their results on popular datasets as well as their competitive performances.
After feature extraction, the time-series features, frames and audio, will be
fed into Transformer encoder layers to return a vector representing their
corresponding modality. Each of the four features (frames, title, description,
audios) will pass through a context gating layer before concatenation. Finally,
our model will generate a vector in the latent space and select the frame that
is most similar to this vector in the latent space. To the best of our
knowledge, we are the first to propose a multi-modal deep learning model to
select video thumbnail, which beats the result from the previous
State-of-The-Art models.
- Abstract(参考訳): Thumbnailはオンラインビデオの顔だ。
ビデオの数とバラエティの両方が爆発的に伸びていることは、視聴者がビデオを選ぶ時間を節約し、それらをクリックするよう誘惑するので、良いサムネイルの重要性を物語っている。
良いサムネイルは、視聴者の注意を引くと同時に、ビデオのコンテンツを最もよく表現するフレームであるべきです。
しかし、過去の技術やモデルはビデオ内のフレームのみに焦点を合わせており、そのような狭められた焦点は、ビデオの一部となる有用な情報を残していると信じている。
本稿では,映像のタイトル,説明,音声を含むコンテンツの定義を拡張し,これらのモダリティによって提供される情報を選択モデルで活用する。
特に,本モデルでは,フレームを時間的に均一にサンプリングし,この部分集合の上位1000フレームを最も美的スコアの高い2列畳み込みニューラルネットワークで返却し,下流タスクにおける全フレームの処理の計算負荷を回避する。
次に、VGG16から抽出したフレーム機能、ELECTRAからのテキスト機能、TRILLからのオーディオ機能を含む。
これらのモデルが選ばれたのは、一般的なデータセットと競合するパフォーマンスの結果である。
特徴抽出後、時系列の特徴であるフレームとオーディオはトランスフォーマーエンコーダ層に供給され、対応するモダリティを表すベクトルを返す。
4つの機能(フレーム、タイトル、説明、オーディオ)はそれぞれ、結合前にコンテキストゲーティング層を通過します。
最後に、我々のモデルは潜在空間内のベクトルを生成し、潜在空間におけるこのベクトルに最も近いフレームを選択する。
我々の知る限りでは、我々はビデオサムネイルを選択するためのマルチモーダル深層学習モデルを提案しており、これは以前のState-of-The-Artモデルに勝っている。
関連論文リスト
- Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。
MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。
MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文 参考訳(メタデータ) (2022-07-05T05:14:15Z) - Towards Micro-video Thumbnail Selection via a Multi-label
Visual-semantic Embedding Model [0.0]
サムネイルは、マイクロビデオの初見として、ユーザーがクリックして視聴する際の重要な役割を担っている。
本稿では,各フレーム間の類似度と,ユーザが興味を持っている話題との類似度を推定するために,マルチラベルのビジュアル・セマンティック・埋め込みモデルを提案する。
我々は、各フレームの視覚的表現スコアと人気スコアを融合させ、与えられたマイクロビデオの魅力的なサムネイルを選択する。
論文 参考訳(メタデータ) (2022-02-07T04:15:26Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。