論文の概要: Improving Visual-textual Sentiment Analysis by Fusing Expert Features
- arxiv url: http://arxiv.org/abs/2211.12981v1
- Date: Wed, 23 Nov 2022 14:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 16:09:39.854245
- Title: Improving Visual-textual Sentiment Analysis by Fusing Expert Features
- Title(参考訳): Fusing Expert Features による視覚的テキスト知覚分析の改善
- Authors: Junyu Chen, Jie An, Hanjia Lyu, Jiebo Luo
- Abstract要約: 本稿では,強力な専門家による視覚的特徴を導入することにより,視覚的・テキスト的感情分析を改善する手法を提案する。
提案手法は,(1)感情分析のためのデータから直接特徴を学習する視覚テキストブランチ,(2)事前学習した「エキスパート」エンコーダのセットを持つ視覚専門家ブランチ,(3)視覚テキスト特徴を暗黙的に融合して感情予測を行うCLIPブランチの4つの部分から構成される。
- 参考スコア(独自算出の注目度): 72.06263228104709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-textual sentiment analysis aims to predict sentiment with the input of
a pair of image and text. The main challenge of visual-textual sentiment
analysis is how to learn effective visual features for sentiment prediction
since input images are often very diverse. To address this challenge, we
propose a new method that improves visual-textual sentiment analysis by
introducing powerful expert visual features. The proposed method consists of
four parts: (1) a visual-textual branch to learn features directly from data
for sentiment analysis, (2) a visual expert branch with a set of pre-trained
"expert" encoders to extract effective visual features, (3) a CLIP branch to
implicitly model visual-textual correspondence, and (4) a multimodal feature
fusion network based on either BERT or MLP to fuse multimodal features and make
sentiment prediction. Extensive experiments on three datasets show that our
method produces better visual-textual sentiment analysis performance than
existing methods.
- Abstract(参考訳): 視覚-テキスト感情分析は、画像とテキストのペア入力で感情を予測することを目的としている。
視覚的・テキスト的感情分析の主な課題は、入力画像が非常に多様なため、感情予測に効果的な視覚的特徴を学習する方法である。
この課題に対処するために,強力な視覚機能を導入することにより,視覚-文感情分析を改善する新しい手法を提案する。
提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)効果的な視覚特徴を抽出する訓練済みの「エキスパート」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合し感情予測を行うBERTまたはMLPに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
3つのデータセットを広範囲に実験した結果,既存の手法よりも視覚的・テキスト的感情分析性能が向上した。
関連論文リスト
- Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Unleashing the Imagination of Text: A Novel Framework for Text-to-image
Person Retrieval via Exploring the Power of Words [0.951828574518325]
文中の単語のパワーを探索する新しい枠組みを提案する。
このフレームワークは、トレーニング済みのフルCLIPモデルをイメージとテキストのデュアルエンコーダとして採用している。
ハードサンプルの処理に適したクロスモーダル三重項損失を導入し,微妙な違いを識別するモデルの能力を高めた。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - A Novel Context-Aware Multimodal Framework for Persian Sentiment
Analysis [19.783517380422854]
まず,800以上の発話からなるペルシャのマルチモーダルデータセットについて述べる。
文脈対応型マルチモーダル感情分析フレームワークを提案する。
我々は,感情的クロスモーダル情報を統合するために,意思決定レベル(後期)と機能レベル(早期)の融合手法の両方を用いる。
論文 参考訳(メタデータ) (2021-03-03T19:09:01Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。