論文の概要: Multimodal Deep Learning Framework for Image Popularity Prediction on
Social Media
- arxiv url: http://arxiv.org/abs/2105.08809v1
- Date: Tue, 18 May 2021 19:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:42:00.102695
- Title: Multimodal Deep Learning Framework for Image Popularity Prediction on
Social Media
- Title(参考訳): ソーシャルメディアにおける画像人気予測のためのマルチモーダルディープラーニングフレームワーク
- Authors: Fatma S. Abousaleh, Wen-Huang Cheng, Neng-Hao Yu, and Yu Tsao
- Abstract要約: 画像の人気は、視覚的コンテンツ、美的品質、ユーザ、ポストメタデータ、時間など、いくつかの要因に影響される可能性がある。
我々は、投稿された画像の人気を予測する、視覚社会的畳み込みニューラルネットワーク(VSCNN)と呼ばれるディープラーニングモデルを提案する。
- 参考スコア(独自算出の注目度): 24.104443991470287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Billions of photos are uploaded to the web daily through various types of
social networks. Some of these images receive millions of views and become
popular, whereas others remain completely unnoticed. This raises the problem of
predicting image popularity on social media. The popularity of an image can be
affected by several factors, such as visual content, aesthetic quality, user,
post metadata, and time. Thus, considering all these factors is essential for
accurately predicting image popularity. In addition, the efficiency of the
predictive model also plays a crucial role. In this study, motivated by
multimodal learning, which uses information from various modalities, and the
current success of convolutional neural networks (CNNs) in various fields, we
propose a deep learning model, called visual-social convolutional neural
network (VSCNN), which predicts the popularity of a posted image by
incorporating various types of visual and social features into a unified
network model. VSCNN first learns to extract high-level representations from
the input visual and social features by utilizing two individual CNNs. The
outputs of these two networks are then fused into a joint network to estimate
the popularity score in the output layer. We assess the performance of the
proposed method by conducting extensive experiments on a dataset of
approximately 432K images posted on Flickr. The simulation results demonstrate
that the proposed VSCNN model significantly outperforms state-of-the-art
models, with a relative improvement of greater than 2.33%, 7.59%, and 14.16% in
terms of Spearman's Rho, mean absolute error, and mean squared error,
respectively.
- Abstract(参考訳): 何十億枚もの写真が、様々な種類のソーシャルネットワークを通じて毎日ウェブにアップロードされる。
これらの画像の中には何百万ものビューを受け取り人気を得るものもあれば、全く気づかないものもある。
これは、ソーシャルメディアで画像人気を予測するという問題を引き起こす。
画像の人気は、視覚コンテンツ、美的品質、ユーザ、ポストメタデータ、時間など、いくつかの要因に影響される可能性がある。
したがって、これら全ての要因を考慮することは、画像の人気を正確に予測するのに不可欠である。
さらに,予測モデルの効率性も重要な役割を担っている。
本研究では,様々なモダリティからの情報を利用するマルチモーダル学習と,様々な分野における畳み込みニューラルネットワーク(CNN)の現在の成功を動機として,様々な種類の視覚的特徴と社会的特徴を統合ネットワークモデルに組み込むことで,投稿画像の人気を予測する深層学習モデル(VSCNN)を提案する。
VSCNNはまず、2つの個別CNNを利用して入力された視覚的特徴と社会的特徴から高レベル表現を抽出することを学ぶ。
これら2つのネットワークの出力をジョイントネットワークに融合し、出力層における人気スコアを推定する。
Flickrに投稿された約432K画像のデータセットを広範囲に実験することにより,提案手法の性能を評価する。
シミュレーションの結果、提案したVSCNNモデルは、それぞれ平均絶対誤差と平均二乗誤差の2.33%、7.59%、14.16%以上の相対的な改善により、最先端モデルよりも大幅に優れていることが示された。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Biased Attention: Do Vision Transformers Amplify Gender Bias More than
Convolutional Neural Networks? [2.8391805742728553]
コンピュータビジョンで使用されるディープニューラルネットワークは、性別バイアスのような多くの社会的バイアスを示すことが示されている。
ビジョントランスフォーマー(ViT)は、コンピュータビジョンアプリケーションにおいて、画像分類などの多くのタスクにおいて、畳み込みニューラルネットワーク(CNN)を上回っている。
この研究により、ViTsはCNNよりも男女の偏見を増幅していることがわかった。
論文 参考訳(メタデータ) (2023-09-15T20:59:12Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Graph Representation Learning for Popularity Prediction Problem: A
Survey [4.795530213347874]
本稿では,人気予測問題に対するグラフ表現学習(GRL)手法を用いた既存研究の総合的なレビューを行う。
深層学習は、畳み込みニューラルネットワーク、グラフ畳み込みネットワーク、グラフ注意ネットワーク、グラフニューラルネットワーク、繰り返しニューラルネットワーク、強化学習の6つの小さなクラスに分類される。
論文 参考訳(メタデータ) (2022-03-15T04:11:46Z) - Detection and Localization of Multiple Image Splicing Using MobileNet V1 [0.0]
2つ以上の画像を組み合わせて、ソーシャルメディアプラットフォーム間で情報を伝達できる新しい画像を生成する。
本研究では,Mask R-CNNを用いた複数画像スプライシングの偽造検出手法を提案する。
また、複数のスプライシング画像の鍛造領域のパーセンテージスコアを算出する。
論文 参考訳(メタデータ) (2021-08-22T09:27:22Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Application of Facial Recognition using Convolutional Neural Networks
for Entry Access Control [0.0]
本論文は,画像中の人物を入力として捉え,その人物を著者の1人か否かを分類する,教師付き分類問題の解決に焦点をあてる。
提案手法は,(1)WoodNetと呼ばれるニューラルネットワークをスクラッチから構築し,トレーニングすること,(2)ImageNetデータベース上に事前トレーニングされたネットワークを利用することで,転送学習を活用すること,の2つである。
結果は、データセット内の個人を高い精度で分類し、保持されたテストデータに対して99%以上の精度で達成する2つのモデルである。
論文 参考訳(メタデータ) (2020-11-23T07:55:24Z) - Shallow Feature Based Dense Attention Network for Crowd Counting [103.67446852449551]
静止画像から群衆を数えるためのShallow機能に基づくDense Attention Network (SDANet)を提案する。
提案手法は,SDANetの11.9%の平均絶対誤差(MAE)低下から明らかなように,既存の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-06-17T13:34:42Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。