論文の概要: Improving Visual-textual Sentiment Analysis by Fusing Expert Features
- arxiv url: http://arxiv.org/abs/2211.12981v1
- Date: Wed, 23 Nov 2022 14:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 16:09:39.854245
- Title: Improving Visual-textual Sentiment Analysis by Fusing Expert Features
- Title(参考訳): Fusing Expert Features による視覚的テキスト知覚分析の改善
- Authors: Junyu Chen, Jie An, Hanjia Lyu, Jiebo Luo
- Abstract要約: 本稿では,強力な専門家による視覚的特徴を導入することにより,視覚的・テキスト的感情分析を改善する手法を提案する。
提案手法は,(1)感情分析のためのデータから直接特徴を学習する視覚テキストブランチ,(2)事前学習した「エキスパート」エンコーダのセットを持つ視覚専門家ブランチ,(3)視覚テキスト特徴を暗黙的に融合して感情予測を行うCLIPブランチの4つの部分から構成される。
- 参考スコア(独自算出の注目度): 72.06263228104709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-textual sentiment analysis aims to predict sentiment with the input of
a pair of image and text. The main challenge of visual-textual sentiment
analysis is how to learn effective visual features for sentiment prediction
since input images are often very diverse. To address this challenge, we
propose a new method that improves visual-textual sentiment analysis by
introducing powerful expert visual features. The proposed method consists of
four parts: (1) a visual-textual branch to learn features directly from data
for sentiment analysis, (2) a visual expert branch with a set of pre-trained
"expert" encoders to extract effective visual features, (3) a CLIP branch to
implicitly model visual-textual correspondence, and (4) a multimodal feature
fusion network based on either BERT or MLP to fuse multimodal features and make
sentiment prediction. Extensive experiments on three datasets show that our
method produces better visual-textual sentiment analysis performance than
existing methods.
- Abstract(参考訳): 視覚-テキスト感情分析は、画像とテキストのペア入力で感情を予測することを目的としている。
視覚的・テキスト的感情分析の主な課題は、入力画像が非常に多様なため、感情予測に効果的な視覚的特徴を学習する方法である。
この課題に対処するために,強力な視覚機能を導入することにより,視覚-文感情分析を改善する新しい手法を提案する。
提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)効果的な視覚特徴を抽出する訓練済みの「エキスパート」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合し感情予測を行うBERTまたはMLPに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
3つのデータセットを広範囲に実験した結果,既存の手法よりも視覚的・テキスト的感情分析性能が向上した。
関連論文リスト
- Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs [13.922091192207718]
本研究の目的は,文,視覚,エモティコン間の関係を分析することである。
我々は,新しいコントラスト学習に基づくマルチモーダルアーキテクチャを提案する。
提案モデルの精度は91%,MCCスコアは90%,エモティコンは90%であった。
論文 参考訳(メタデータ) (2024-08-05T15:45:59Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文 参考訳(メタデータ) (2023-02-03T11:17:59Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。