論文の概要: HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction
- arxiv url: http://arxiv.org/abs/2507.00926v1
- Date: Tue, 01 Jul 2025 16:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.732568
- Title: HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction
- Title(参考訳): HyperFusion: ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習
- Authors: Liliang Ye, Yunyao Zhang, Yafeng Wu, Yi-Ping Phoebe Chen, Junqing Yu, Wei Yang, Zikai Song,
- Abstract要約: ソーシャルメディアの人気予測は、コンテンツ最適化、マーケティング戦略、デジタルプラットフォーム全体のユーザエンゲージメント向上において重要な役割を果たす。
本稿では,ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習フレームワークHyperFusionを提案する。
- 参考スコア(独自算出の注目度): 16.78634288864967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media popularity prediction plays a crucial role in content optimization, marketing strategies, and user engagement enhancement across digital platforms. However, predicting post popularity remains challenging due to the complex interplay between visual, textual, temporal, and user behavioral factors. This paper presents HyperFusion, a hierarchical multimodal ensemble learning framework for social media popularity prediction. Our approach employs a three-tier fusion architecture that progressively integrates features across abstraction levels: visual representations from CLIP encoders, textual embeddings from transformer models, and temporal-spatial metadata with user characteristics. The framework implements a hierarchical ensemble strategy combining CatBoost, TabNet, and custom multi-layer perceptrons. To address limited labeled data, we propose a two-stage training methodology with pseudo-labeling and iterative refinement. We introduce novel cross-modal similarity measures and hierarchical clustering features that capture inter-modal dependencies. Experimental results demonstrate that HyperFusion achieves competitive performance on the SMP challenge dataset. Our team achieved third place in the SMP Challenge 2025 (Image Track). The source code is available at https://anonymous.4open.science/r/SMPDImage.
- Abstract(参考訳): ソーシャルメディアの人気予測は、コンテンツ最適化、マーケティング戦略、デジタルプラットフォーム全体のユーザエンゲージメント向上において重要な役割を果たす。
しかし、視覚的、テキスト的、時間的、ユーザーの行動的要因の複雑な相互作用のため、ポストの人気を予測することは依然として困難である。
本稿では,ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習フレームワークHyperFusionを提案する。
提案手法では,CLIPエンコーダからの視覚表現,トランスフォーマーモデルからのテキスト埋め込み,ユーザ特性を備えた時間空間メタデータといった,抽象化レベルを段階的に統合する3層融合アーキテクチャを採用している。
このフレームワークは、CatBoost、TabNet、カスタムマルチレイヤパーセプトロンを組み合わせた階層的なアンサンブル戦略を実装している。
限定ラベル付きデータに対処するため,擬似ラベル付けと反復修正を用いた2段階学習手法を提案する。
モーダル間の依存関係をキャプチャする新しいクロスモーダル類似度尺度と階層的クラスタリング機能を導入する。
実験の結果,HyperFusionはSMPチャレンジデータセット上での競合性能を実証した。
私たちのチームは、SMP Challenge 2025(Image Track)で3位を獲得しました。
ソースコードはhttps://anonymous.4open.science/r/SMPDImageで公開されている。
関連論文リスト
- Cross-Modal Attention Network with Dual Graph Learning in Multimodal Recommendation [12.802844514133255]
二重グラフ埋め込み(CRANE)を用いたクロスモーダル再帰注意ネットワーク
我々は,共同潜在空間における相互相関に基づくモダリティ特徴を反復的に洗練するコア再帰的クロスモーダルアテンション(RCA)機構を設計する。
対称型マルチモーダル学習では,対話した項目の特徴を集約することで,ユーザのマルチモーダルプロファイルを明示的に構築する。
論文 参考訳(メタデータ) (2026-01-16T10:09:39Z) - Unified Text-Image Generation with Weakness-Targeted Post-Training [57.956648078400775]
テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。
この研究は、モデルがテキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
論文 参考訳(メタデータ) (2026-01-07T19:19:44Z) - Transformer-Driven Triple Fusion Framework for Enhanced Multimodal Author Intent Classification in Low-Resource Bangla [5.518378568494161]
著者意図の理解はソーシャルメディアのコンテンツを解釈する上で重要な役割を担っている。
本稿では,Banglaのソーシャルメディア投稿における著者意図の分類について,テキストデータとビジュアルデータの両方を活用して検討する。
我々は,この課題において,早期および後期の核融合を著しく上回る新しい中間核融合戦略を導入する。
論文 参考訳(メタデータ) (2025-11-28T15:44:42Z) - Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-30T09:26:32Z) - Cross-Modal Prototype Augmentation and Dual-Grained Prompt Learning for Social Media Popularity Prediction [16.452218354378452]
ソーシャルメディアの人気予測は、画像、テキスト、構造化情報の効果的な統合を必要とする複雑なタスクである。
視覚テキストアライメントを改善するために,構造強化とコントラスト学習のための階層型プロトタイプを導入する。
本稿では,2段階の突発学習とモーダル間注意機構を統合した機能強化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-22T07:16:47Z) - MIM: Multi-modal Content Interest Modeling Paradigm for User Behavior Modeling [27.32474950026696]
マルチモーダルコンテンツ興味モデリングパラダイム(MIM)を提案する。
MIMは3つの主要なステージで構成されている。
CTRでは+14.14%、RPMでは+4.12%の大幅な増加を達成した。
論文 参考訳(メタデータ) (2025-02-01T05:06:21Z) - TriMod Fusion for Multimodal Named Entity Recognition in Social Media [0.0]
本稿では, テキスト, ビジュアル, ハッシュタグ機能(TriMod)を統合した新しい手法を提案する。
我々は,既存の最先端手法よりもアプローチの優位性を実証し,精度,リコール,F1スコアの大幅な向上を実現した。
論文 参考訳(メタデータ) (2025-01-14T17:29:41Z) - SMLNet: A SPD Manifold Learning Network for Infrared and Visible Image Fusion [60.18614468818683]
マルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習を提案する。
我々のフレームワークは現在の最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-16T03:09:49Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。
本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文 参考訳(メタデータ) (2024-06-17T17:35:54Z) - Hierarchical Information Enhancement Network for Cascade Prediction in Social Networks [51.54002032659713]
カスケード予測のための階層型情報拡張ネットワーク(HIENet)を提案する。
本手法では,基本カスケードシーケンス,ユーザソーシャルグラフ,サブカスケードグラフを統合フレームワークに統合する。
論文 参考訳(メタデータ) (2024-03-22T14:57:27Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Multi-channel Attentive Graph Convolutional Network With Sentiment
Fusion For Multimodal Sentiment Analysis [10.625579004828733]
本稿では,Multi- Channel Attentive Graph Convolutional Network (MAGCN)を提案する。
クロスモーダルな対話型学習と感傷的特徴融合の2つの主要コンポーネントで構成されている。
実験は、広く使われている3つのデータセットで実施される。
論文 参考訳(メタデータ) (2022-01-25T12:38:33Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。