論文の概要: MGHFT: Multi-Granularity Hierarchical Fusion Transformer for Cross-Modal Sticker Emotion Recognition
- arxiv url: http://arxiv.org/abs/2507.18929v1
- Date: Fri, 25 Jul 2025 03:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.815128
- Title: MGHFT: Multi-Granularity Hierarchical Fusion Transformer for Cross-Modal Sticker Emotion Recognition
- Title(参考訳): MGHFT:クロスモーダルステッカー感情認識のための多角形階層型核融合変換器
- Authors: Jian Chen, Yuxuan Hu, Haifeng Lu, Wei Wang, Min Yang, Chengming Li, Xiping Hu,
- Abstract要約: 新規な多粒性階層型核融合変圧器(MGHFT)を提案する。
まず、マルチモーダル大言語モデルを用いてステッカーを解釈する。
そして、テキストコンテキストを視覚的理解に融合させる階層的な融合戦略を設計する。
- 参考スコア(独自算出の注目度): 29.045940445247872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although pre-trained visual models with text have demonstrated strong capabilities in visual feature extraction, sticker emotion understanding remains challenging due to its reliance on multi-view information, such as background knowledge and stylistic cues. To address this, we propose a novel multi-granularity hierarchical fusion transformer (MGHFT), with a multi-view sticker interpreter based on Multimodal Large Language Models. Specifically, inspired by the human ability to interpret sticker emotions from multiple views, we first use Multimodal Large Language Models to interpret stickers by providing rich textual context via multi-view descriptions. Then, we design a hierarchical fusion strategy to fuse the textual context into visual understanding, which builds upon a pyramid visual transformer to extract both global and local sticker features at multiple stages. Through contrastive learning and attention mechanisms, textual features are injected at different stages of the visual backbone, enhancing the fusion of global- and local-granularity visual semantics with textual guidance. Finally, we introduce a text-guided fusion attention mechanism to effectively integrate the overall multimodal features, enhancing semantic understanding. Extensive experiments on 2 public sticker emotion datasets demonstrate that MGHFT significantly outperforms existing sticker emotion recognition approaches, achieving higher accuracy and more fine-grained emotion recognition. Compared to the best pre-trained visual models, our MGHFT also obtains an obvious improvement, 5.4% on F1 and 4.0% on accuracy. The code is released at https://github.com/cccccj-03/MGHFT_ACMMM2025.
- Abstract(参考訳): テキストによる事前学習された視覚モデルは、視覚的特徴抽出において強力な能力を示しているが、背景知識やスタイル的手がかりなどの多視点情報に依存しているため、ステッカー感情理解は依然として困難である。
そこで本研究では,マルチモーダル大言語モデルに基づく多視点ステッカーインタプリタを用いた,新しい多言語階層型フュージョントランス (MGHFT) を提案する。
具体的には、複数のビューからステッカー感情を解釈する人間の能力に触発され、まずマルチモーダルな大言語モデルを用いて、マルチビュー記述を通じてリッチなテキストコンテキストを提供することで、ステッカーを解釈する。
そして、テキストコンテキストを視覚的理解に融合させる階層的な融合戦略を設計し、ピラミッド・ビジュアル・トランスフォーマー上に構築し、グローバル・ローカル・ステッカーの特徴を複数段階で抽出する。
対照的な学習と注意機構を通じて、テキスト特徴は視覚バックボーンの異なる段階に注入され、グローバル・グラニュラリティ・ビジュアル・セマンティクスとテキスト・ガイダンスの融合が促進される。
最後に,テキスト誘導型フュージョンアテンション機構を導入し,全体的なマルチモーダル機能を効果的に統合し,セマンティック理解を強化する。
2つの公開ステッカー感情データセットの大規模な実験により、MGHFTは既存のステッカー感情認識アプローチを著しく上回り、より高い精度とよりきめ細かい感情認識を実現している。
F1では5.4%、精度では4.0%の明らかな改善が得られた。
コードはhttps://github.com/cccccj-03/MGHFT_ACMMM2025で公開されている。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。
テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。
画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-06-20T03:53:07Z) - Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought [72.93910800095757]
大規模視覚言語モデル(LVLM)の性能と解釈性を改善するマルチモーダル・チェーン・オブ・シント(MCoT)
我々は,MCoTフォーマットによらず,画像情報を推論プロセスに伝達する視覚的思考を取り入れることで,MCoTがLVLMを促進することを示す。
また、視覚的思考の内部的な性質を探求し、視覚的思考が入力画像と深いトランスフォーマー層への推論の間の仲介として機能することを発見した。
論文 参考訳(メタデータ) (2025-05-21T13:29:58Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs [13.922091192207718]
本研究の目的は,文,視覚,エモティコン間の関係を分析することである。
我々は,新しいコントラスト学習に基づくマルチモーダルアーキテクチャを提案する。
提案モデルの精度は91%,MCCスコアは90%,エモティコンは90%であった。
論文 参考訳(メタデータ) (2024-08-05T15:45:59Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Joyful: Joint Modality Fusion and Graph Contrastive Learning for
Multimodal Emotion Recognition [18.571931295274975]
マルチモーダル感情認識は、複数のモーダルの発話毎に感情を認識することを目的としている。
現在のグラフベースの手法では、対話においてグローバルな文脈特徴と局所的な多様なユニモーダル特徴を同時に表現することができない。
マルチモーダル感情認識のための共同モーダル融合法とグラフコントラスト学習法(Joyful)を提案する。
論文 参考訳(メタデータ) (2023-11-18T08:21:42Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z) - Multilevel Transformer For Multimodal Emotion Recognition [6.0149102420697025]
本稿では,微粒化表現と事前学習した発話レベル表現を組み合わせた新しい多粒度フレームワークを提案する。
本研究では,Transformer TTSにインスパイアされたマルチレベルトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T10:31:24Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。