論文の概要: Aspect-based Sentiment Classification with Sequential Cross-modal
Semantic Graph
- arxiv url: http://arxiv.org/abs/2208.09417v1
- Date: Fri, 19 Aug 2022 16:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 16:44:02.678190
- Title: Aspect-based Sentiment Classification with Sequential Cross-modal
Semantic Graph
- Title(参考訳): 逐次クロスモーダル意味グラフを用いたアスペクトベース感情分類
- Authors: Yufeng Huang, Zhuo Chen, Wen Zhang, Jiaoyan Chen, Jeff Z. Pan, Zhen
Yao, Yujie Xie, Huajun Chen
- Abstract要約: マルチモーダル・アスペクトベース感情分類(MABSC)は,対象者の感情を分類することを目的とした,新たな分類課題である。
従来のアプローチでは、画像のきめ細かいセマンティクスを十分に利用していない。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフとエンコーダ・デコーダモデルを構築する方法を含む新しいフレームワークSeqCSGを提案する。
- 参考スコア(独自算出の注目度): 37.56307429678088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal aspect-based sentiment classification (MABSC) is an emerging
classification task that aims to classify the sentiment of a given target such
as a mentioned entity in data with different modalities. In typical multi-modal
data with text and image, previous approaches do not make full use of the
fine-grained semantics of the image, especially in conjunction with the
semantics of the text and do not fully consider modeling the relationship
between fine-grained image information and target, which leads to insufficient
use of image and inadequate to identify fine-grained aspects and opinions. To
tackle these limitations, we propose a new framework SeqCSG including a method
to construct sequential cross-modal semantic graphs and an encoder-decoder
model. Specifically, we extract fine-grained information from the original
image, image caption, and scene graph, and regard them as elements of the
cross-modal semantic graph as well as tokens from texts. The cross-modal
semantic graph is represented as a sequence with a multi-modal visible matrix
indicating relationships between elements. In order to effectively utilize the
cross-modal semantic graph, we propose an encoder-decoder method with a target
prompt template. Experimental results show that our approach outperforms
existing methods and achieves the state-of-the-art on two standard datasets
MABSC. Further analysis demonstrates the effectiveness of each component and
our model can implicitly learn the correlation between the target and
fine-grained information of the image.
- Abstract(参考訳): mabsc(multi-modal aspect-based sentiment classification)は、特定の対象の感情を分類することを目的とした分類タスクである。
テキストと画像を用いた一般的なマルチモーダルデータでは、従来のアプローチでは、画像の微細な意味論、特にテキストのセマンティクスと組み合わせて、きめ細かい画像情報とターゲットの関係を十分にモデル化することができないため、画像の使用が不十分で、きめ細かい側面や意見を特定するのに不十分である。
これらの制約に対処するために,シーケンシャルクロスモーダル意味グラフとエンコーダ・デコーダモデルを構築する手法を含む新しいフレームワーク seqcsg を提案する。
具体的には、原画像、画像キャプション、シーングラフからきめ細かい情報を抽出し、それらをテキストからのトークンだけでなく、クロスモーダルなセマンティックグラフの要素とみなす。
クロスモーダル意味グラフは、要素間の関係を示すマルチモーダル可視行列を持つシーケンスとして表現される。
モーダルなセマンティックグラフを効果的に活用するために,ターゲットプロンプトテンプレートを用いたエンコーダデコーダ法を提案する。
実験の結果,提案手法は既存の手法より優れており,2つの標準データセットMABSCの最先端化を実現していることがわかった。
さらに分析した結果,各コンポーネントの有効性が示され,対象と画像のきめ細かい情報との相関関係を暗黙的に学習できることがわかった。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。