論文の概要: Analyzing Image Beyond Visual Aspect: Image Emotion Classification via Multiple-Affective Captioning
- arxiv url: http://arxiv.org/abs/2511.23115v1
- Date: Fri, 28 Nov 2025 11:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.882225
- Title: Analyzing Image Beyond Visual Aspect: Image Emotion Classification via Multiple-Affective Captioning
- Title(参考訳): 視覚的視点を超えた画像の分析:多重効果キャプションによる画像感情分類
- Authors: Zibo Zhou, Zhengjun Zhai, Huimin Chen, Wei Dai, Hansen Yang,
- Abstract要約: 本稿では、画像感情分類のためのACIEC(Affective Captioning for Image Emotion Classification)を提案する。
本研究では,イメージから感情的概念を検出するために階層的多段階のコントラッシブ・ロスを設計し,感情的文を生成するために感情的連鎖推論を提案する。
本手法は, 感情ギャップを効果的に埋めることができ, 複数のベンチマークにおいて優れた結果が得られる。
- 参考スコア(独自算出の注目度): 9.701754879957853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image emotion classification (IEC) is a longstanding research field that has received increasing attention with the rapid progress of deep learning. Although recent advances have leveraged the knowledge encoded in pre-trained visual models, their effectiveness is constrained by the "affective gap" , limits the applicability of pre-training knowledge for IEC tasks. It has been demonstrated in psychology that language exhibits high variability, encompasses diverse and abundant information, and can effectively eliminate the "affective gap". Inspired by this, we propose a novel Affective Captioning for Image Emotion Classification (ACIEC) to classify image emotion based on pure texts, which effectively capture the affective information in the image. In our method, a hierarchical multi-level contrastive loss is designed for detecting emotional concepts from images, while an emotional attribute chain-of-thought reasoning is proposed to generate affective sentences. Then, a pre-trained language model is leveraged to synthesize emotional concepts and affective sentences to conduct IEC. Additionally, a contrastive loss based on semantic similarity sampling is designed to solve the problem of large intra-class differences and small inter-class differences in affective datasets. Moreover, we also take the images with embedded texts into consideration, which were ignored by previous studies. Extensive experiments illustrate that our method can effectively bridge the affective gap and achieve superior results on multiple benchmarks.
- Abstract(参考訳): 画像感情分類(IEC)は、深層学習の急速な進歩とともに注目を集めている長年の研究分野である。
近年の進歩は、事前学習された視覚モデルに符号化された知識を活用しているが、その効果は「効果ギャップ」によって制約され、IECタスクの事前学習知識の適用性が制限されている。
心理学において、言語は高い多様性を示し、多様で豊富な情報を包含し、「影響的なギャップ」を効果的に排除できることが示されている。
そこで本研究では,画像中の感情情報を効果的に捉え,純粋なテキストに基づいてイメージ感情を分類する,ACIEC(Affective Captioning for Image Emotion Classification)を提案する。
本研究では,イメージから感情的概念を検出するために階層的多段階のコントラッシブ・ロスを設計し,感情的文を生成するために感情的属性連鎖推論を提案する。
次に、事前学習された言語モデルを用いて感情概念と感情文を合成し、IECを実行する。
さらに、意味的類似性サンプリングに基づく対照的な損失は、感情的データセットにおける大きなクラス内差と小さなクラス間差の問題を解決するように設計されている。
また,過去の研究では無視されていた組込みテキストによる画像も考慮に入れた。
大規模な実験により,本手法は感情ギャップを効果的に埋めることができ,複数のベンチマークにおいて優れた結果が得られることが示された。
関連論文リスト
- Bridging Visual Affective Gap: Borrowing Textual Knowledge by Learning from Noisy Image-Text Pairs [16.56946059161466]
本稿では、事前学習された視覚モデルの感情知覚を高めるために、事前学習されたテキストモデルから知識を借りることを提案する。
ノイズの多いソーシャルメディアデータにおいて、画像とテキスト間の事実的および感情的なつながりに焦点を当てる。
負対と正対を動的に構成することにより、ノイズサンプルの可能性を完全に活用する。
論文 参考訳(メタデータ) (2025-11-21T10:06:32Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - VISTANet: VIsual Spoken Textual Additive Net for Interpretable Multimodal Emotion Recognition [21.247650660908484]
本稿では、VISTANet(Visual Textual Additive Net)というマルチモーダル感情認識システムを提案する。
K-Average Additive exPlanation (KAAP) と呼ばれる新しい解釈可能性技術が開発され、視覚的、音声的、テキスト的特徴を識別する。
VISTANetは、IIT-R MMEmoRecデータセットで全体の感情認識精度が80.11%に達した。
論文 参考訳(メタデータ) (2022-08-24T11:35:51Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - SpanEmo: Casting Multi-label Emotion Classification as Span-prediction [15.41237087996244]
マルチラベル感情分類をスパンプレディションとした新しいモデル「SpanEmo」を提案する。
入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。
SemEval2018マルチラベル感情データを3つの言語セットで実験した結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-25T12:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。