論文の概要: MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities
- arxiv url: http://arxiv.org/abs/2307.14878v1
- Date: Thu, 27 Jul 2023 14:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 14:20:53.392009
- Title: MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities
- Title(参考訳): MESED: きめ細かいセマンティッククラスとハード負のエンティティを備えたマルチモーダルエンティティセット拡張データセット
- Authors: Yangning Li, Tingwei Lu, Yinghui Li, Tianyu Yu, Shulin Huang, Hai-Tao
Zheng, Rui Zhang, Jun Yuan
- Abstract要約: 本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
- 参考スコア(独自算出の注目度): 25.059177235004952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Entity Set Expansion (ESE) task aims to expand a handful of seed entities
with new entities belonging to the same semantic class. Conventional ESE
methods are based on mono-modality (i.e., literal modality), which struggle to
deal with complex entities in the real world such as: (1) Negative entities
with fine-grained semantic differences. (2) Synonymous entities. (3) Polysemous
entities. (4) Long-tailed entities. These challenges prompt us to propose
Multi-modal Entity Set Expansion (MESE), where models integrate information
from multiple modalities to represent entities. Intuitively, the benefits of
multi-modal information for ESE are threefold: (1) Different modalities can
provide complementary information. (2) Multi-modal information provides a
unified signal via common visual properties for the same semantic class or
entity. (3) Multi-modal information offers robust alignment signal for
synonymous entities. To assess the performance of model in MESE and facilitate
further research, we constructed the MESED dataset which is the first
multi-modal dataset for ESE with large-scale and elaborate manual calibration.
A powerful multi-modal model MultiExpan is proposed which is pre-trained on
four multimodal pre-training tasks. The extensive experiments and analyses on
MESED demonstrate the high quality of the dataset and the effectiveness of our
MultiExpan, as well as pointing the direction for future research.
- Abstract(参考訳): Entity Set Expansion (ESE)タスクは、いくつかのシードエンティティを同じセマンティッククラスに属する新しいエンティティで拡張することを目的としている。
従来のESE法はモノモダリティ(すなわちリテラルモダリティ)に基づいており、これは(1)細かな意味的差異を持つ負の実体のような現実世界の複雑な実体を扱うのに苦労する。
(2) 匿名エンティティ。
(3)多面体。
(4)ロングテールエンティティ。
これらの課題は、モデルが複数のモーダルから情報を統合してエンティティを表現するマルチモーダルエンティティセット拡張(MESE)を提案することを促す。
直観的には、ese に対するマルチモーダル情報の利点は3つある:(1)異なるモーダル性は補完的な情報を提供できる。
(2) マルチモーダル情報は、同じ意味クラスまたはエンティティの共通の視覚特性を介して統一された信号を提供する。
(3)マルチモーダル情報は同義語のためのロバストなアライメント信号を提供する。
MESEにおけるモデルの性能を評価し,さらなる研究を促進するために,大規模かつ精巧な手動キャリブレーションを備えたEMSのための最初のマルチモーダルデータセットであるMESEDデータセットを構築した。
4つのマルチモーダル事前学習タスクで事前学習される強力なマルチモーダルモデルマルチエクスパンを提案する。
MESEDに関する広範な実験と分析は、データセットの品質とMultiExpanの有効性を示し、今後の研究の方向性を示している。
関連論文リスト
- Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment [17.570243718626994]
マルチモーダル・エンティティ・アライメント(MMEA)は、マルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティを識別することを目的としている。
確率分布としてモーダル固有の実体表現を生成するために,多モード変分エンコーダを考案する。
また、4つのモーダル固有情報ボトルネック正規化器を提案し、モーダル固有実体表現の精製における誤解を招く手がかりを限定する。
論文 参考訳(メタデータ) (2024-07-27T17:12:37Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。
本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:11Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。