論文の概要: Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition
- arxiv url: http://arxiv.org/abs/2407.07026v1
- Date: Tue, 9 Jul 2024 16:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 17:17:48.516651
- Title: Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition
- Title(参考訳): セマンティック・コンプリートと分解によるマルチモーダル・センティメント検出の解法
- Authors: Daiqing Wu, Dongbao Yang, Huawen Shen, Can Ma, Yu Zhou,
- Abstract要約: 本稿では,不一致感の問題を解決するためのセマンティックス・コンプリーション・分解(CoDe)ネットワークを提案する。
セマンティックス完了モジュールでは、イメージに埋め込まれたOCRテキストのセマンティックスで画像とテキストの表現を補完し、感情ギャップを埋める手助けをする。
セマンティックス分解モジュールでは、画像とテキストの表現を排他的投射とコントラスト学習で分解し、不明瞭な感情を明示的にキャプチャする。
- 参考スコア(独自算出の注目度): 8.275099847402535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the proliferation of social media posts in recent years, the need to detect sentiments in multimodal (image-text) content has grown rapidly. Since posts are user-generated, the image and text from the same post can express different or even contradictory sentiments, leading to potential \textbf{sentiment discrepancy}. However, existing works mainly adopt a single-branch fusion structure that primarily captures the consistent sentiment between image and text. The ignorance or implicit modeling of discrepant sentiment results in compromised unimodal encoding and limited performances. In this paper, we propose a semantics Completion and Decomposition (CoDe) network to resolve the above issue. In the semantics completion module, we complement image and text representations with the semantics of the OCR text embedded in the image, helping bridge the sentiment gap. In the semantics decomposition module, we decompose image and text representations with exclusive projection and contrastive learning, thereby explicitly capturing the discrepant sentiment between modalities. Finally, we fuse image and text representations by cross-attention and combine them with the learned discrepant sentiment for final classification. Extensive experiments conducted on four multimodal sentiment datasets demonstrate the superiority of CoDe against SOTA methods.
- Abstract(参考訳): 近年のソーシャルメディア投稿の普及に伴い、マルチモーダル(画像テキスト)コンテンツにおける感情を検出する必要性が急速に高まっている。
投稿はユーザー生成であるため、同じ投稿の画像とテキストは異なる、あるいは矛盾する感情を表現でき、潜在的な \textbf{sentiment discrepancy} につながる。
しかし、既存の作品は、主に画像とテキストの一貫性のある感情をキャプチャする単一ブランチの融合構造を採用している。
不明瞭な感情の無知や暗黙のモデリングは、妥協された単調なエンコーディングと限られたパフォーマンスをもたらす。
本稿では,上記の問題を解決するために,セマンティックス・コンプリート・コンプリート・分解(CoDe)ネットワークを提案する。
セマンティックス補完モジュールでは、イメージに埋め込まれたOCRテキストのセマンティックスで画像とテキストの表現を補完し、感情ギャップを埋める手助けをする。
セマンティクス分解モジュールでは、画像とテキストの表現を排他的投影とコントラスト学習で分解し、モダリティ間の不一致感を明示的に捉える。
最後に、画像とテキストの表現を相互注意で融合させ、最終分類のための学習された不明瞭感と組み合わせる。
4つのマルチモーダル感情データセットで実施された大規模な実験は、SOTA法に対するCoDeの優位性を実証している。
関連論文リスト
- EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning [38.30565103892611]
本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。
このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。
我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
論文 参考訳(メタデータ) (2024-10-23T12:12:56Z) - Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection [12.744170917349287]
本研究では,入力三重項を処理可能なマルチモーダルサルカズム検出のための新しいフレームワークを提案する。
提案したモデルは、TwitterのマルチモーダルサルカムとMultiBullyデータセットでそれぞれ92.89%と64.48%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-05T16:07:31Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Image Inpainting Guided by Coherence Priors of Semantics and Textures [62.92586889409379]
セマンティクスとテクスチャ間のコヒーレンスプリエンスを導入することにより、セマンティクス的な方法で別々のテクスチャを完成させることに集中できる。
また,全体構造と詳細なテクスチャの観点から,セマンティクスとインペインテッドイメージの一貫性を制約する2つのコヒーレンス損失を提案する。
論文 参考訳(メタデータ) (2020-12-15T02:59:37Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval [41.505920288928365]
マルチモーダルデータは、クロスモーダル検索方法への関心を喚起している。
テキストと画像のサブスペースのセマンティックコヒーレンシを促進する新しいモダリティ損失を提案する。
提案手法では,ペア画像とテキストが近接するだけでなく,期待される画像イメージとテキストテキストの関係も観察される。
論文 参考訳(メタデータ) (2020-07-16T20:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。