論文の概要: WikiDiverse: A Multimodal Entity Linking Dataset with Diversified
Contextual Topics and Entity Types
- arxiv url: http://arxiv.org/abs/2204.06347v1
- Date: Wed, 13 Apr 2022 12:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 12:48:58.072454
- Title: WikiDiverse: A Multimodal Entity Linking Dataset with Diversified
Contextual Topics and Entity Types
- Title(参考訳): wikidiverse: さまざまなコンテキストトピックとエンティティタイプとデータセットをリンクするマルチモーダルエンティティ
- Authors: Xuwu Wang, Junfeng Tian, Min Gui, Zhixu Li, Rui Wang, Ming Yan, Lihan
Chen, Yanghua Xiao
- Abstract要約: MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティへの参照をマルチモーダルコンテキストにリンクすることを目的としている。
WikiDiverseは、Wikinewsのコンテキストトピックやエンティティタイプを多用した、高品質な人間アノテーション付きMELデータセットである。
WikiDiverseに基づいて、モダリティ内およびモダリティ間注目を伴うよく設計されたMELモデルのシーケンスを実装した。
- 参考スコア(独自算出の注目度): 25.569170440376165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Entity Linking (MEL) which aims at linking mentions with
multimodal contexts to the referent entities from a knowledge base (e.g.,
Wikipedia), is an essential task for many multimodal applications. Although
much attention has been paid to MEL, the shortcomings of existing MEL datasets
including limited contextual topics and entity types, simplified mention
ambiguity, and restricted availability, have caused great obstacles to the
research and application of MEL. In this paper, we present WikiDiverse, a
high-quality human-annotated MEL dataset with diversified contextual topics and
entity types from Wikinews, which uses Wikipedia as the corresponding knowledge
base. A well-tailored annotation procedure is adopted to ensure the quality of
the dataset. Based on WikiDiverse, a sequence of well-designed MEL models with
intra-modality and inter-modality attentions are implemented, which utilize the
visual information of images more adequately than existing MEL models do.
Extensive experimental analyses are conducted to investigate the contributions
of different modalities in terms of MEL, facilitating the future research on
this task. The dataset and baseline models are available at
https://github.com/wangxw5/wikiDiverse.
- Abstract(参考訳): MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティと参照コンテキストをリンクすることを目的とした、多くのマルチモーダルアプリケーションにとって不可欠なタスクである。
MELには多くの注意が払われているが、コンテキストトピックやエンティティタイプ、あいまいさの単純化、可用性の制限など、既存のMELデータセットの欠点は、MELの研究や応用に大きな障害を引き起こしている。
本稿では,wikipediaを知識ベースとして使用するwikinewsのコンテキストトピックとエンティティタイプを多様化した,高品質なメルデータセットであるwikidiverseを提案する。
データセットの品質を保証するために、よく調整されたアノテーション手順が採用されている。
WikiDiverseに基づいて、既存のMELモデルよりも画像の視覚的情報を適切に活用する、モダリティ内およびモダリティ間注意を伴うよく設計されたMELモデルのシーケンスを実装した。
総合的な実験分析を行い,MELの観点から様々なモダリティの寄与について検討し,今後の研究を円滑に進める。
データセットとベースラインモデルはhttps://github.com/wangxw5/wikiDiverse.comで公開されている。
関連論文リスト
- OVEL: Large Language Model as Memory Manager for Online Video Entity
Linking [57.70595589893391]
我々は,オンラインビデオにおける言及と,高精度かつ時系列の知識ベースとの接続を確立することを目的とした,オンラインビデオエンティティリンクOVELというタスクを提案する。
OVEL タスクを効果的に処理するために,Large Language Model が管理するメモリブロックを活用し,知識ベースからエンティティ候補を抽出し,メモリ管理における LLM 性能を向上させる。
論文 参考訳(メタデータ) (2024-03-03T06:47:51Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization
Benchmark and a Case Study on Summarizing Diverse Information from News
Articles [142.7366365876213]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Multimodal Entity Tagging with Multimodal Knowledge Base [45.84732232595781]
マルチモーダル知識ベース(MKB)を用いたMET(Multimodal entity tagging)というタスクを提案する。
METでは、テキストイメージペアが与えられた場合、MKB内の情報を使用して、テキストイメージペア内の関連エンティティを自動的に識別する。
我々は広範な実験を行い、実験結果について分析する。
論文 参考訳(メタデータ) (2021-12-21T15:04:57Z) - Hierarchical Cross-Modality Semantic Correlation Learning Model for
Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。
従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。
マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:46:30Z) - Topic-Guided Abstractive Multi-Document Summarization [21.856615677793243]
多文書要約(MDS)の重要なポイントは、様々な文書間の関係を学習することである。
異種グラフとして複数の文書を表現できる新しい抽象MDSモデルを提案する。
我々は、クロスドキュメントセマンティックユニットとして機能する潜在トピックを共同で発見するために、ニューラルトピックモデルを採用している。
論文 参考訳(メタデータ) (2021-10-21T15:32:30Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。