論文の概要: DWE+: Dual-Way Matching Enhanced Framework for Multimodal Entity Linking
- arxiv url: http://arxiv.org/abs/2404.04818v1
- Date: Sun, 7 Apr 2024 05:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:30:39.103818
- Title: DWE+: Dual-Way Matching Enhanced Framework for Multimodal Entity Linking
- Title(参考訳): DWE+:マルチモーダルエンティティリンクのためのデュアルウェイマッチング強化フレームワーク
- Authors: Shezheng Song, Shasha Li, Shan Zhao, Xiaopeng Li, Chengyu Wang, Jie Yu, Jun Ma, Tianwei Yan, Bin Ji, Xiaoguang Mao,
- Abstract要約: マルチモーダルなエンティティリンクのためのDWE+を提案する。
DWE+はより微細なセマンティクスをキャプチャし、エンティティとのセマンティクスの一貫性を動的に維持できる。
Wikimel、Richpedia、Wikidiverseのデータセットの実験では、DWE+がMELの性能向上に有効であることを実証している。
- 参考スコア(独自算出の注目度): 16.728006492769666
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal entity linking (MEL) aims to utilize multimodal information (usually textual and visual information) to link ambiguous mentions to unambiguous entities in knowledge base. Current methods facing main issues: (1)treating the entire image as input may contain redundant information. (2)the insufficient utilization of entity-related information, such as attributes in images. (3)semantic inconsistency between the entity in knowledge base and its representation. To this end, we propose DWE+ for multimodal entity linking. DWE+ could capture finer semantics and dynamically maintain semantic consistency with entities. This is achieved by three aspects: (a)we introduce a method for extracting fine-grained image features by partitioning the image into multiple local objects. Then, hierarchical contrastive learning is used to further align semantics between coarse-grained information(text and image) and fine-grained (mention and visual objects). (b)we explore ways to extract visual attributes from images to enhance fusion feature such as facial features and identity. (c)we leverage Wikipedia and ChatGPT to capture the entity representation, achieving semantic enrichment from both static and dynamic perspectives, which better reflects the real-world entity semantics. Experiments on Wikimel, Richpedia, and Wikidiverse datasets demonstrate the effectiveness of DWE+ in improving MEL performance. Specifically, we optimize these datasets and achieve state-of-the-art performance on the enhanced datasets. The code and enhanced datasets are released on https://github.com/season1blue/DWET
- Abstract(参考訳): マルチモーダルエンティティリンク(MEL)は、多モーダル情報(通常、テキストおよび視覚情報)を利用して、知識ベースにおける曖昧なエンティティへの曖昧な言及をリンクすることを目的としている。
1)イメージ全体を入力として扱うことは、冗長な情報を含む可能性がある。
2)画像の属性などのエンティティ関連情報の不十分な利用。
(3)知識基盤の実体とその表現のセマンティックな矛盾。
この目的のために,マルチモーダルなエンティティリンクのためのDWE+を提案する。
DWE+はより微細なセマンティクスをキャプチャし、エンティティとのセマンティクスの一貫性を動的に維持できる。
これは3つの側面によって達成される。
a) 画像を複数の局所オブジェクトに分割することで, きめ細かい画像特徴を抽出する手法を提案する。
次に、階層的コントラスト学習を用いて、粗粒度情報(テキストと画像)と細粒度情報(顔と視覚オブジェクト)のセマンティクスを更に整合させる。
b)顔の特徴やアイデンティティなどの融合機能を高めるために,画像から視覚的属性を抽出する方法を検討する。
(c)WikipediaとChatGPTを利用してエンティティ表現をキャプチャし、静的な視点と動的視点の両方からセマンティックエンリッチメントを実現し、現実のエンティティセマンティクスをよりよく反映する。
Wikimel、Richpedia、Wikidiverseのデータセットの実験では、DWE+がMELの性能向上に有効であることを実証している。
具体的には、これらのデータセットを最適化し、拡張データセット上で最先端のパフォーマンスを達成する。
コードと拡張データセットはhttps://github.com/season1blue/DWETで公開されている。
関連論文リスト
- Enhancing Content-based Recommendation via Large Language Model [19.005906480699334]
本稿では,2つの主要コンポーネントを含む意味的知識伝達手法であるtextbfLoIDを提案する。
実世界のデータセットをベースラインとしたSOTAによる広範囲な実験を行い、本手法のLoIDを大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-03-30T03:56:53Z) - Few-Shot Relation Extraction with Hybrid Visual Evidence [3.154631846975021]
MFS-HVE(Multi-modal few-shot relation extract model)を提案する。
MFS-HVEは意味的特徴抽出器とマルチモーダル融合コンポーネントを含む。
2つの公開データセットで行った実験は、意味的な視覚情報が数発の関係予測の性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-03-01T18:20:11Z) - A Dual-way Enhanced Framework from Text Matching Point of View for
Multimodal Entity Linking [18.742934572771677]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis [194.1452124186117]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
我々のECGANは最先端の手法よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2020-03-31T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。