論文の概要: Towards Micro-video Thumbnail Selection via a Multi-label
Visual-semantic Embedding Model
- arxiv url: http://arxiv.org/abs/2202.02930v1
- Date: Mon, 7 Feb 2022 04:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 17:26:12.355561
- Title: Towards Micro-video Thumbnail Selection via a Multi-label
Visual-semantic Embedding Model
- Title(参考訳): マルチラベル視覚意味埋め込みモデルによるマイクロビデオサムネイル選択に向けて
- Authors: Liu Bo
- Abstract要約: サムネイルは、マイクロビデオの初見として、ユーザーがクリックして視聴する際の重要な役割を担っている。
本稿では,各フレーム間の類似度と,ユーザが興味を持っている話題との類似度を推定するために,マルチラベルのビジュアル・セマンティック・埋め込みモデルを提案する。
我々は、各フレームの視覚的表現スコアと人気スコアを融合させ、与えられたマイクロビデオの魅力的なサムネイルを選択する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The thumbnail, as the first sight of a micro-video, plays a pivotal role in
attracting users to click and watch. While in the real scenario, the more the
thumbnails satisfy the users, the more likely the micro-videos will be clicked.
In this paper, we aim to select the thumbnail of a given micro-video that meets
most users` interests. Towards this end, we present a multi-label
visual-semantic embedding model to estimate the similarity between the pair of
each frame and the popular topics that users are interested in. In this model,
the visual and textual information is embedded into a shared semantic space,
whereby the similarity can be measured directly, even the unseen words.
Moreover, to compare the frame to all words from the popular topics, we devise
an attention embedding space associated with the semantic-attention projection.
With the help of these two embedding spaces, the popularity score of a frame,
which is defined by the sum of similarity scores over the corresponding visual
information and popular topic pairs, is achieved. Ultimately, we fuse the
visual representation score and the popularity score of each frame to select
the attractive thumbnail for the given micro-video. Extensive experiments
conducted on a real-world dataset have well-verified that our model
significantly outperforms several state-of-the-art baselines.
- Abstract(参考訳): サムネイルは、マイクロビデオの初見であり、ユーザーがクリックして視聴する際の重要な役割を担っている。
実際のシナリオでは、サムネイルがユーザーを満足させるほど、マイクロビデオがクリックされる可能性が高まる。
本稿では,ほとんどのユーザの興味を満たしたマイクロビデオのサムネイルを選択することを目的とする。
そこで本研究では,各フレームの対とユーザが興味を持つ話題との類似度を推定するために,マルチラベルのビジュアル・セマンティクス埋め込みモデルを提案する。
このモデルでは、視覚的およびテキスト的情報を共有意味空間に埋め込んで、その類似性を直接測定することができる。
さらに,このフレームを一般的な話題のすべての単語と比較するために,意味的意図の投影に関連する注意埋め込み空間を考案した。
これら2つの埋め込み空間の助けを借りて、対応する視覚情報と人気のある話題ペアの類似度スコアの和で定義されるフレームの人気スコアが達成される。
最終的に、各フレームの視覚的表現スコアと人気スコアを融合して、与えられたマイクロビデオの魅力的なサムネイルを選択する。
実世界のデータセットで行った広範囲な実験は、我々のモデルがいくつかの最先端のベースラインを大きく上回っていることをよく証明した。
関連論文リスト
- Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。
本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。
推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Supervised Video Summarization via Multiple Feature Sets with Parallel
Attention [4.931399476945033]
視覚コンテンツと動きの3つの特徴セットを組み合わせて重要度を予測する新しいモデルアーキテクチャを提案する。
提案アーキテクチャは,動作特徴と(静止した)視覚的内容を表す特徴を融合する前に,注意機構を利用する。
SumMeとTVSumの2つのよく知られたデータセットについて、包括的な実験的評価が報告されている。
論文 参考訳(メタデータ) (2021-04-23T10:46:35Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Modeling High-order Interactions across Multi-interests for Micro-video
Reommendation [65.16624625748068]
利用者の興味表現を高めるためのセルフオーバーCoアテンションモジュールを提案します。
特に、まず相関パターンを異なるレベルでモデル化し、次に自己注意を使って特定のレベルで相関パターンをモデル化します。
論文 参考訳(メタデータ) (2021-04-01T07:20:15Z) - A Multi-modal Deep Learning Model for Video Thumbnail Selection [0.0]
良いサムネイルは、視聴者の注意を引くと同時に、ビデオの内容を最大限に表現するフレームであるべきです。
本稿では,映像のタイトル,説明,音声を含むコンテンツの定義を拡張し,これらのモダリティによって提供される情報を選択モデルで活用する。
我々の知る限りでは、我々はビデオサムネイルを選択するためのマルチモーダル深層学習モデルを提案しており、これは以前のState-of-The-Artモデルに勝っている。
論文 参考訳(メタデータ) (2020-12-31T21:10:09Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。