論文の概要: HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction
- arxiv url: http://arxiv.org/abs/2507.00926v1
- Date: Tue, 01 Jul 2025 16:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.732568
- Title: HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction
- Title(参考訳): HyperFusion: ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習
- Authors: Liliang Ye, Yunyao Zhang, Yafeng Wu, Yi-Ping Phoebe Chen, Junqing Yu, Wei Yang, Zikai Song,
- Abstract要約: ソーシャルメディアの人気予測は、コンテンツ最適化、マーケティング戦略、デジタルプラットフォーム全体のユーザエンゲージメント向上において重要な役割を果たす。
本稿では,ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習フレームワークHyperFusionを提案する。
- 参考スコア(独自算出の注目度): 16.78634288864967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media popularity prediction plays a crucial role in content optimization, marketing strategies, and user engagement enhancement across digital platforms. However, predicting post popularity remains challenging due to the complex interplay between visual, textual, temporal, and user behavioral factors. This paper presents HyperFusion, a hierarchical multimodal ensemble learning framework for social media popularity prediction. Our approach employs a three-tier fusion architecture that progressively integrates features across abstraction levels: visual representations from CLIP encoders, textual embeddings from transformer models, and temporal-spatial metadata with user characteristics. The framework implements a hierarchical ensemble strategy combining CatBoost, TabNet, and custom multi-layer perceptrons. To address limited labeled data, we propose a two-stage training methodology with pseudo-labeling and iterative refinement. We introduce novel cross-modal similarity measures and hierarchical clustering features that capture inter-modal dependencies. Experimental results demonstrate that HyperFusion achieves competitive performance on the SMP challenge dataset. Our team achieved third place in the SMP Challenge 2025 (Image Track). The source code is available at https://anonymous.4open.science/r/SMPDImage.
- Abstract(参考訳): ソーシャルメディアの人気予測は、コンテンツ最適化、マーケティング戦略、デジタルプラットフォーム全体のユーザエンゲージメント向上において重要な役割を果たす。
しかし、視覚的、テキスト的、時間的、ユーザーの行動的要因の複雑な相互作用のため、ポストの人気を予測することは依然として困難である。
本稿では,ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習フレームワークHyperFusionを提案する。
提案手法では,CLIPエンコーダからの視覚表現,トランスフォーマーモデルからのテキスト埋め込み,ユーザ特性を備えた時間空間メタデータといった,抽象化レベルを段階的に統合する3層融合アーキテクチャを採用している。
このフレームワークは、CatBoost、TabNet、カスタムマルチレイヤパーセプトロンを組み合わせた階層的なアンサンブル戦略を実装している。
限定ラベル付きデータに対処するため,擬似ラベル付けと反復修正を用いた2段階学習手法を提案する。
モーダル間の依存関係をキャプチャする新しいクロスモーダル類似度尺度と階層的クラスタリング機能を導入する。
実験の結果,HyperFusionはSMPチャレンジデータセット上での競合性能を実証した。
私たちのチームは、SMP Challenge 2025(Image Track)で3位を獲得しました。
ソースコードはhttps://anonymous.4open.science/r/SMPDImageで公開されている。
関連論文リスト
- MIM: Multi-modal Content Interest Modeling Paradigm for User Behavior Modeling [27.32474950026696]
マルチモーダルコンテンツ興味モデリングパラダイム(MIM)を提案する。
MIMは3つの主要なステージで構成されている。
CTRでは+14.14%、RPMでは+4.12%の大幅な増加を達成した。
論文 参考訳(メタデータ) (2025-02-01T05:06:21Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Multi-channel Attentive Graph Convolutional Network With Sentiment
Fusion For Multimodal Sentiment Analysis [10.625579004828733]
本稿では,Multi- Channel Attentive Graph Convolutional Network (MAGCN)を提案する。
クロスモーダルな対話型学習と感傷的特徴融合の2つの主要コンポーネントで構成されている。
実験は、広く使われている3つのデータセットで実施される。
論文 参考訳(メタデータ) (2022-01-25T12:38:33Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。