論文の概要: WikiDiverse: A Multimodal Entity Linking Dataset with Diversified
Contextual Topics and Entity Types
- arxiv url: http://arxiv.org/abs/2204.06347v1
- Date: Wed, 13 Apr 2022 12:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 12:48:58.072454
- Title: WikiDiverse: A Multimodal Entity Linking Dataset with Diversified
Contextual Topics and Entity Types
- Title(参考訳): wikidiverse: さまざまなコンテキストトピックとエンティティタイプとデータセットをリンクするマルチモーダルエンティティ
- Authors: Xuwu Wang, Junfeng Tian, Min Gui, Zhixu Li, Rui Wang, Ming Yan, Lihan
Chen, Yanghua Xiao
- Abstract要約: MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。
WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。
WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
- 参考スコア(独自算出の注目度): 25.569170440376165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Entity Linking (MEL) which aims at linking mentions with
multimodal contexts to the referent entities from a knowledge base (e.g.,
Wikipedia), is an essential task for many multimodal applications. Although
much attention has been paid to MEL, the shortcomings of existing MEL datasets
including limited contextual topics and entity types, simplified mention
ambiguity, and restricted availability, have caused great obstacles to the
research and application of MEL. In this paper, we present WikiDiverse, a
high-quality human-annotated MEL dataset with diversified contextual topics and
entity types from Wikinews, which uses Wikipedia as the corresponding knowledge
base. A well-tailored annotation procedure is adopted to ensure the quality of
the dataset. Based on WikiDiverse, a sequence of well-designed MEL models with
intra-modality and inter-modality attentions are implemented, which utilize the
visual information of images more adequately than existing MEL models do.
Extensive experimental analyses are conducted to investigate the contributions
of different modalities in terms of MEL, facilitating the future research on
this task. The dataset and baseline models are available at
https://github.com/wangxw5/wikiDiverse.
- Abstract(参考訳): MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティと参照コンテキストをリンクすることを目的とした、多くのマルチモーダルアプリケーションにとって不可欠なタスクである。
MELには多くの注意が払われているが、コンテキストトピックやエンティティタイプ、あいまいさの単純化、可用性の制限など、既存のMELデータセットの欠点は、MELの研究や応用に大きな障害を引き起こしている。
本稿では,wikipediaを知識ベースとして使用するwikinewsのコンテキストトピックとエンティティタイプを多様化した,高品質なメルデータセットであるwikidiverseを提案する。
データセットの品質を保証するために、よく調整されたアノテーション手順が採用されている。
WikiDiverseに基づいて、既存のMELモデルよりも画像の視覚的情報を適切に活用する、モダリティ内およびモダリティ間注意を伴うよく設計されたMELモデルのシーケンスを実装した。
総合的な実験分析を行い,MELの観点から様々なモダリティの寄与について検討し,今後の研究を円滑に進める。
データセットとベースラインモデルはhttps://github.com/wangxw5/wikiDiverse.comで公開されている。
関連論文リスト
- FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Semantic-Aware Representation of Multi-Modal Data for Data Ingress: A Literature Review [1.8590097948961688]
LLM(Large Language Models)のような生成AIは、テキスト、画像、オーディオ、ビデオなどのマルチモーダルデータを処理するために広く採用されている。
このデータを効率的に管理することは、データ量が2倍にならないため、業界倍の課題となっている。
本研究では,モノモーダル,マルチモーダル,クロスモーダルデータから埋め込みを抽出するセマンティック・アウェア技術に着目した。
論文 参考訳(メタデータ) (2024-07-17T09:49:11Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Multimodal Entity Tagging with Multimodal Knowledge Base [45.84732232595781]
マルチモーダル知識ベース(MKB)を用いたMET(Multimodal entity tagging)というタスクを提案する。
METでは、テキストイメージペアが与えられた場合、MKB内の情報を使用して、テキストイメージペア内の関連エンティティを自動的に識別する。
我々は広範な実験を行い、実験結果について分析する。
論文 参考訳(メタデータ) (2021-12-21T15:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。