論文の概要: Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph
- arxiv url: http://arxiv.org/abs/2208.09417v2
- Date: Mon, 24 Jul 2023 03:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 01:01:02.618520
- Title: Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph
- Title(参考訳): 逐次クロスモーダル意味グラフを用いたターゲット指向感情分類
- Authors: Yufeng Huang, Zhuo Chen, Jiaoyan Chen, Jeff Z. Pan, Zhen Yao, Wen
Zhang
- Abstract要約: マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multi-modal aspect-based sentiment classification、MABSC)は、文と画像に言及された対象エンティティの感情を分類するタスクである。
以前の手法では、画像とテキストの微妙なセマンティックな関連を考慮できなかった。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフを用いたエンコーダ・デコーダの感情分類フレームワークであるSeqCSGを提案する。
- 参考スコア(独自算出の注目度): 27.77392307623526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal aspect-based sentiment classification (MABSC) is task of
classifying the sentiment of a target entity mentioned in a sentence and an
image. However, previous methods failed to account for the fine-grained
semantic association between the image and the text, which resulted in limited
identification of fine-grained image aspects and opinions. To address these
limitations, in this paper we propose a new approach called SeqCSG, which
enhances the encoder-decoder sentiment classification framework using
sequential cross-modal semantic graphs. SeqCSG utilizes image captions and
scene graphs to extract both global and local fine-grained image information
and considers them as elements of the cross-modal semantic graph along with
tokens from tweets. The sequential cross-modal semantic graph is represented as
a sequence with a multi-modal adjacency matrix indicating relationships between
elements. Experimental results show that the approach outperforms existing
methods and achieves state-of-the-art performance on two standard datasets.
Further analysis has demonstrated that the model can implicitly learn the
correlation between fine-grained information of the image and the text with the
given target. Our code is available at https://github.com/zjukg/SeqCSG.
- Abstract(参考訳): マルチモーダル・アスペクトベース感情分類(multi-modal aspect-based sentiment classification, mabsc)は、文や画像で言及される対象エンティティの感情を分類するタスクである。
しかし、従来の手法では、画像とテキストの間の細かな意味関係を考慮できず、細かな画像の側面や意見の特定が制限された。
本稿では,これらの制約に対処するために,シーケンシャルクロスモーダル意味グラフを用いたエンコーダ・デコーダ感情分類フレームワークを拡張したseqcsgと呼ばれる新しいアプローチを提案する。
seqcsgは、画像キャプションとシーングラフを使用して、グローバルおよびローカルの細かな画像情報の両方を抽出し、それらをツイートからのトークンとともに、クロスモーダルセマンティックグラフの要素とみなす。
逐次クロスモーダル意味グラフは、要素間の関係を示すマルチモーダル隣接行列を持つシーケンスとして表現される。
実験結果から,本手法は既存の手法より優れ,2つの標準データセット上での最先端性能を実現することが示された。
さらに分析した結果,画像のきめ細かい情報とテキストとの相関関係を,モデルが暗黙的に学習できることが判明した。
私たちのコードはhttps://github.com/zjukg/seqcsgで利用可能です。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。