論文の概要: AoM: Detecting Aspect-oriented Information for Multimodal Aspect-Based
Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2306.01004v1
- Date: Wed, 31 May 2023 11:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 18:39:41.575886
- Title: AoM: Detecting Aspect-oriented Information for Multimodal Aspect-Based
Sentiment Analysis
- Title(参考訳): AoM:マルチモーダルアスペクトに基づく知覚分析のためのアスペクト指向情報検出
- Authors: Ru Zhou, Wenya Guo, Xumeng Liu, Shenglong Yu, Ying Zhang, Xiaojie Yuan
- Abstract要約: 本稿ではアスペクト関連意味情報と感情情報を検出するアスペクト指向手法(AoM)を提案する。
感情情報を正確に集約するために,感情をAoMに埋め込み,グラフ畳み込みネットワークを用いて視覚・テキスト・テキストインタラクションをモデル化する。
- 参考スコア(独自算出の注目度): 14.173085246365826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal aspect-based sentiment analysis (MABSA) aims to extract aspects
from text-image pairs and recognize their sentiments. Existing methods make
great efforts to align the whole image to corresponding aspects. However,
different regions of the image may relate to different aspects in the same
sentence, and coarsely establishing image-aspect alignment will introduce noise
to aspect-based sentiment analysis (i.e., visual noise). Besides, the sentiment
of a specific aspect can also be interfered by descriptions of other aspects
(i.e., textual noise). Considering the aforementioned noises, this paper
proposes an Aspect-oriented Method (AoM) to detect aspect-relevant semantic and
sentiment information. Specifically, an aspect-aware attention module is
designed to simultaneously select textual tokens and image blocks that are
semantically related to the aspects. To accurately aggregate sentiment
information, we explicitly introduce sentiment embedding into AoM, and use a
graph convolutional network to model the vision-text and text-text interaction.
Extensive experiments demonstrate the superiority of AoM to existing methods.
The source code is publicly released at https://github.com/SilyRab/AoM.
- Abstract(参考訳): マルチモーダルなアスペクトベース感情分析(MABSA)は、テキストイメージペアからアスペクトを抽出し、その感情を認識することを目的としている。
既存の手法は、画像全体を対応する側面に合わせるために多大な努力をしている。
しかし、画像の異なる領域は同一文の異なる側面に関連し、画像-アスペクトアライメントの粗い確立は、アスペクトベースの感情分析(すなわち視覚ノイズ)にノイズをもたらす。
さらに、特定の側面の感情は、他の側面(例えば、テクストノイズ)の記述によっても妨げられる。
本稿では、上記の雑音を考慮し、アスペクト関連セマンティクスと感情情報を検出するアスペクト指向手法(AoM)を提案する。
具体的には、アスペクト対応アテンションモジュールは、アスペクトに意味的に関連するテキストトークンと画像ブロックを同時に選択するように設計されている。
感情情報を正確に集約するために,感情をAoMに埋め込み,グラフ畳み込みネットワークを用いて視覚・テキスト・テキストインタラクションをモデル化する。
大規模な実験は、既存の方法よりもAoMの方が優れていることを示す。
ソースコードはhttps://github.com/silyrab/aomで公開されている。
関連論文リスト
- Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition [8.275099847402535]
本稿では,不一致感の問題を解決するためのセマンティックス・コンプリーション・分解(CoDe)ネットワークを提案する。
セマンティックス完了モジュールでは、イメージに埋め込まれたOCRテキストのセマンティックスで画像とテキストの表現を補完し、感情ギャップを埋める手助けをする。
セマンティックス分解モジュールでは、画像とテキストの表現を排他的投射とコントラスト学習で分解し、不明瞭な感情を明示的にキャプチャする。
論文 参考訳(メタデータ) (2024-07-09T16:46:58Z) - MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。
ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。
CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文 参考訳(メタデータ) (2024-07-05T06:44:43Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Exploring Affordance and Situated Meaning in Image Captions: A
Multimodal Analysis [1.124958340749622]
Flickr30kデータセットのイメージに5つの知覚特性(Affordance, Perceptual Salience, Object Number, Cue Gazeing, Ecological Niche Association (ENA))を付加した注釈を付ける。
以上の結果より,ギブソニアの空白画像は,テコールの空白画像と比較して,「保持動詞」と「コンテナ名詞」を含む字幕の頻度が高いことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-24T01:30:50Z) - SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Visual Semantic Parsing: From Images to Abstract Meaning Representation [20.60579156219413]
自然言語処理の分野で広く使われている意味表現である抽象的意味表現(AMR)を活用することを提案する。
我々の視覚的AMRグラフは、視覚入力から外挿された高レベルな意味概念に焦点をあてて、言語的により理解されている。
本研究は,シーン理解の改善に向けた今後の重要な研究方向を示唆するものである。
論文 参考訳(メタデータ) (2022-10-26T17:06:42Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Survey on Visual Sentiment Analysis [87.20223213370004]
本稿では、関連する出版物をレビューし、視覚知覚分析の分野の概要を概観する。
また,3つの視点から一般的な視覚知覚分析システムの設計原理について述べる。
様々なレベルの粒度と、異なる方法でイメージに対する感情に影響を与えるコンポーネントを考慮し、問題の定式化について論じる。
論文 参考訳(メタデータ) (2020-04-24T10:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。