Fugu-MT 論文翻訳(概要): HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction

論文の概要: HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction

arxiv url: http://arxiv.org/abs/2507.00926v1
Date: Tue, 01 Jul 2025 16:31:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:59.732568
Title: HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction
Title（参考訳）: HyperFusion: ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習
Authors: Liliang Ye, Yunyao Zhang, Yafeng Wu, Yi-Ping Phoebe Chen, Junqing Yu, Wei Yang, Zikai Song,
Abstract要約: ソーシャルメディアの人気予測は、コンテンツ最適化、マーケティング戦略、デジタルプラットフォーム全体のユーザエンゲージメント向上において重要な役割を果たす。本稿では,ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習フレームワークHyperFusionを提案する。
参考スコア（独自算出の注目度）: 16.78634288864967
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Social media popularity prediction plays a crucial role in content optimization, marketing strategies, and user engagement enhancement across digital platforms. However, predicting post popularity remains challenging due to the complex interplay between visual, textual, temporal, and user behavioral factors. This paper presents HyperFusion, a hierarchical multimodal ensemble learning framework for social media popularity prediction. Our approach employs a three-tier fusion architecture that progressively integrates features across abstraction levels: visual representations from CLIP encoders, textual embeddings from transformer models, and temporal-spatial metadata with user characteristics. The framework implements a hierarchical ensemble strategy combining CatBoost, TabNet, and custom multi-layer perceptrons. To address limited labeled data, we propose a two-stage training methodology with pseudo-labeling and iterative refinement. We introduce novel cross-modal similarity measures and hierarchical clustering features that capture inter-modal dependencies. Experimental results demonstrate that HyperFusion achieves competitive performance on the SMP challenge dataset. Our team achieved third place in the SMP Challenge 2025 (Image Track). The source code is available at https://anonymous.4open.science/r/SMPDImage.
Abstract（参考訳）: ソーシャルメディアの人気予測は、コンテンツ最適化、マーケティング戦略、デジタルプラットフォーム全体のユーザエンゲージメント向上において重要な役割を果たす。しかし、視覚的、テキスト的、時間的、ユーザーの行動的要因の複雑な相互作用のため、ポストの人気を予測することは依然として困難である。本稿では,ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習フレームワークHyperFusionを提案する。提案手法では,CLIPエンコーダからの視覚表現,トランスフォーマーモデルからのテキスト埋め込み,ユーザ特性を備えた時間空間メタデータといった,抽象化レベルを段階的に統合する3層融合アーキテクチャを採用している。このフレームワークは、CatBoost、TabNet、カスタムマルチレイヤパーセプトロンを組み合わせた階層的なアンサンブル戦略を実装している。限定ラベル付きデータに対処するため,擬似ラベル付けと反復修正を用いた2段階学習手法を提案する。モーダル間の依存関係をキャプチャする新しいクロスモーダル類似度尺度と階層的クラスタリング機能を導入する。実験の結果,HyperFusionはSMPチャレンジデータセット上での競合性能を実証した。私たちのチームは、SMP Challenge 2025(Image Track)で3位を獲得しました。ソースコードはhttps://anonymous.4open.science/r/SMPDImageで公開されている。

関連論文リスト

MIM: Multi-modal Content Interest Modeling Paradigm for User Behavior Modeling [27.32474950026696]
マルチモーダルコンテンツ興味モデリングパラダイム(MIM)を提案する。 MIMは3つの主要なステージで構成されている。 CTRでは+14.14%、RPMでは+4.12%の大幅な増加を達成した。
論文参考訳（メタデータ） (2025-02-01T05:06:21Z)
TriMod Fusion for Multimodal Named Entity Recognition in Social Media [0.0]
本稿では, テキスト, ビジュアル, ハッシュタグ機能(TriMod)を統合した新しい手法を提案する。我々は,既存の最先端手法よりもアプローチの優位性を実証し,精度,リコール,F1スコアの大幅な向上を実現した。
論文参考訳（メタデータ） (2025-01-14T17:29:41Z)
Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文参考訳（メタデータ） (2024-06-17T17:35:54Z)
Hierarchical Information Enhancement Network for Cascade Prediction in Social Networks [51.54002032659713]
カスケード予測のための階層型情報拡張ネットワーク(HIENet)を提案する。本手法では,基本カスケードシーケンス,ユーザソーシャルグラフ,サブカスケードグラフを統合フレームワークに統合する。
論文参考訳（メタデータ） (2024-03-22T14:57:27Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Hierarchical Audio-Visual Information Fusion with Multi-label Joint Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文参考訳（メタデータ） (2023-09-11T03:19:10Z)
Multi-channel Attentive Graph Convolutional Network With Sentiment Fusion For Multimodal Sentiment Analysis [10.625579004828733]
本稿では,Multi- Channel Attentive Graph Convolutional Network (MAGCN)を提案する。クロスモーダルな対話型学習と感傷的特徴融合の2つの主要コンポーネントで構成されている。実験は、広く使われている3つのデータセットで実施される。
論文参考訳（メタデータ） (2022-01-25T12:38:33Z)
Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文参考訳（メタデータ） (2021-12-01T19:01:26Z)
CoADNet: Collaborative Aggregation-and-Distribution Networks for Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文参考訳（メタデータ） (2020-11-10T04:28:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。