論文の概要: Bridging Visual Affective Gap: Borrowing Textual Knowledge by Learning from Noisy Image-Text Pairs
- arxiv url: http://arxiv.org/abs/2511.17103v1
- Date: Fri, 21 Nov 2025 10:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.965521
- Title: Bridging Visual Affective Gap: Borrowing Textual Knowledge by Learning from Noisy Image-Text Pairs
- Title(参考訳): 視覚的影響のギャップを埋める:ノイズの多いイメージ・テキスト・ペアからの学習によるテクスチャ知識の借用
- Authors: Daiqing Wu, Dongbao Yang, Yu Zhou, Can Ma,
- Abstract要約: 本稿では、事前学習された視覚モデルの感情知覚を高めるために、事前学習されたテキストモデルから知識を借りることを提案する。
ノイズの多いソーシャルメディアデータにおいて、画像とテキスト間の事実的および感情的なつながりに焦点を当てる。
負対と正対を動的に構成することにより、ノイズサンプルの可能性を完全に活用する。
- 参考スコア(独自算出の注目度): 16.56946059161466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual emotion recognition (VER) is a longstanding field that has garnered increasing attention with the advancement of deep neural networks. Although recent studies have achieved notable improvements by leveraging the knowledge embedded within pre-trained visual models, the lack of direct association between factual-level features and emotional categories, called the "affective gap", limits the applicability of pre-training knowledge for VER tasks. On the contrary, the explicit emotional expression and high information density in textual modality eliminate the "affective gap". Therefore, we propose borrowing the knowledge from the pre-trained textual model to enhance the emotional perception of pre-trained visual models. We focus on the factual and emotional connections between images and texts in noisy social media data, and propose Partitioned Adaptive Contrastive Learning (PACL) to leverage these connections. Specifically, we manage to separate different types of samples and devise distinct contrastive learning strategies for each type. By dynamically constructing negative and positive pairs, we fully exploit the potential of noisy samples. Through comprehensive experiments, we demonstrate that bridging the "affective gap" significantly improves the performance of various pre-trained visual models in downstream emotion-related tasks. Our code is released on https://github.com/wdqqdw/PACL.
- Abstract(参考訳): 視覚的感情認識(VER)は、ディープニューラルネットワークの進歩によって注目を集めている長年の分野である。
近年の研究では、事前学習された視覚モデルに埋め込まれた知識を活用することで、顕著な改善が達成されているが、事実レベルの特徴と感情カテゴリーの直接的な関連が欠如していることは、VERタスクの事前学習知識の適用性を制限している。
対照的に、テキストモダリティにおける明示的な感情表現と高情報密度は「影響的なギャップ」を排除している。
そこで本研究では,事前学習された視覚モデルの感情知覚を高めるために,事前学習されたテキストモデルから知識を借りることを提案する。
ノイズの多いソーシャルメディアデータにおける画像とテキストの事実的・感情的なつながりに着目し,これらの関係を活用するために,PACL(Partitioned Adaptive Contrastive Learning)を提案する。
具体的には、異なるタイプのサンプルを分離し、各タイプの異なるコントラスト学習戦略を考案する。
負対と正対を動的に構成することにより、ノイズサンプルの可能性を完全に活用する。
包括的実験により、下流の感情関連タスクにおいて、「効果ギャップ」をブリッジすることで、事前学習された様々な視覚モデルの性能が著しく向上することを示した。
私たちのコードはhttps://github.com/wdqqdw/PACLでリリースされています。
関連論文リスト
- Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation [58.189703277322224]
音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。
参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。
コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
論文 参考訳(メタデータ) (2025-04-08T04:34:38Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
まず、VLLMに対して、視覚的文脈に関連して、被験者の明らかな感情を自然言語で記述するように促す。
第二に、記述は視覚入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Learning Emotion Representations from Verbal and Nonverbal Communication [7.747924294389427]
本稿では,言語・非言語コミュニケーションから視覚的感情表現を抽出する最初の事前学習パラダイムであるEmotionCLIPを提案する。
EmotionCLIPは、感情誘導型コントラスト学習を用いて、主観的文脈エンコーディングと言語感情キューを通じて、非言語感情キューへの参加を誘導する。
EmotionCLIPは、感情理解におけるデータ不足の一般的な問題に対処し、関連する領域の進歩を促進する。
論文 参考訳(メタデータ) (2023-05-22T21:36:55Z) - A Message Passing Perspective on Learning Dynamics of Contrastive
Learning [60.217972614379065]
特徴空間に対照的な目的を同等に配置すると、その学習力学は解釈可能な形式を持つことを示す。
この視点はまた、対照的な学習とメッセージパッシンググラフニューラルネットワーク(MP-GNN)の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2023-03-08T08:27:31Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。