論文の概要: Anime Popularity Prediction Before Huge Investments: a Multimodal Approach Using Deep Learning
- arxiv url: http://arxiv.org/abs/2406.16961v1
- Date: Fri, 21 Jun 2024 23:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 19:10:10.503150
- Title: Anime Popularity Prediction Before Huge Investments: a Multimodal Approach Using Deep Learning
- Title(参考訳): 大規模投資前のアニメ人気予測 : ディープラーニングを用いたマルチモーダルアプローチ
- Authors: Jesús Armenta-Segura, Grigori Sidorov,
- Abstract要約: 本稿では,自由なインターネットソースから構築したマルチモーダルテキスト画像データセットを用いて,アニメの人気を予測するためのデータセットと手法を提案する。
GPT-2とResNet-50を併用したディープニューラルネットワークアーキテクチャを用いて,マルチモーダルテキスト画像入力と人気スコアの相関性を検討した。
- 参考スコア(独自算出の注目度): 5.218967007202571
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the japanese anime industry, predicting whether an upcoming product will be popular is crucial. This paper presents a dataset and methods on predicting anime popularity using a multimodal textimage dataset constructed exclusively from freely available internet sources. The dataset was built following rigorous standards based on real-life investment experiences. A deep neural network architecture leveraging GPT-2 and ResNet-50 to embed the data was employed to investigate the correlation between the multimodal text-image input and a popularity score, discovering relevant strengths and weaknesses in the dataset. To measure the accuracy of the model, mean squared error (MSE) was used, obtaining a best result of 0.011 when considering all inputs and the full version of the deep neural network, compared to the benchmark MSE 0.412 obtained with traditional TF-IDF and PILtotensor vectorizations. This is the first proposal to address such task with multimodal datasets, revealing the substantial benefit of incorporating image information, even when a relatively small model (ResNet-50) was used to embed them.
- Abstract(参考訳): 日本アニメ業界では、今後の製品が普及するかどうかを予測することが重要である。
本稿では,インターネットソースからのみ構築されたマルチモーダルテキスト画像データセットを用いて,アニメの人気を予測するためのデータセットと手法を提案する。
データセットは、実生活の投資経験に基づいた厳格な基準に従って構築された。
GPT-2とResNet-50を利用してデータを埋め込んだディープニューラルネットワークアーキテクチャを用いて、マルチモーダルテキスト画像入力と人気スコアの相関関係を調査し、データセットの関連する長所と短所を発見する。
モデルの精度を測定するために平均二乗誤差(MSE)を用い、従来のTF-IDFとPILtotensorベクター化で得られたベンチマークMSE 0.412と比較して、全ての入力とディープニューラルネットワークのフルバージョンを考慮した場合、0.011の最良の結果を得た。
これは、比較的小さなモデル(ResNet-50)を組み込んでも、画像情報を組み込むことの実質的なメリットを明らかにする、マルチモーダルデータセットでそのようなタスクに対処する最初の提案である。
関連論文リスト
- RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection [11.265512559447986]
本稿では,テキスト,画像,音声中の機械生成コンテンツを検出するための大規模マルチモーダルデータセットであるRU-AIを紹介する。
私たちのデータセットは、Flickr8K、COCO、Places205の3つの大きな公開データセットから構築されています。
マルチモーダル埋め込みモジュールを多層パーセプトロンネットワークに組み込んだ統一モデルにより,データの起源を効果的に決定できる。
論文 参考訳(メタデータ) (2024-06-07T12:58:14Z) - Msmsfnet: a multi-stream and multi-scale fusion net for edge detection [6.1932429715357165]
エッジ検出は、コンピュータビジョンにおける長年の問題である。
最近のディープラーニングベースのアルゴリズムは、公開データセットで最先端のパフォーマンスを実現する。
しかし、それらのパフォーマンスは、ImageNetデータセット上のバックボーンネットワークのトレーニング済みの重みに大きく依存している。
論文 参考訳(メタデータ) (2024-04-07T08:03:42Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文 参考訳(メタデータ) (2022-06-03T00:34:13Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。