Fugu-MT 論文翻訳(概要): Multimodal Entity Linking for Tweets

論文の概要: Multimodal Entity Linking for Tweets

arxiv url: http://arxiv.org/abs/2104.03236v1
Date: Wed, 7 Apr 2021 16:40:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-08 12:39:35.785922
Title: Multimodal Entity Linking for Tweets
Title（参考訳）: つぶやきに対するマルチモーダルエンティティリンク
Authors: Omar Adjali and Romaric Besan\c{c}on and Olivier Ferret and Herve Le Borgne and Brigitte Grau
Abstract要約: マルチモーダル・エンティティ・リンク(MEL)は、知識ベース(KB)のエンティティへの曖昧な言及をマッピングするためにテキストと視覚情報を使用する新興の研究分野である。我々は,MEL のための完全注釈付き Twitter データセットを構築する方法を提案し,エンティティは Twitter KB で定義されている。次に,テキストと視覚の文脈から言及と実体の両方の表現を共同学習するモデルを提案する。
参考スコア（独自算出の注目度）: 6.439761523935613
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In many information extraction applications, entity linking (EL) has emerged as a crucial task that allows leveraging information about named entities from a knowledge base. In this paper, we address the task of multimodal entity linking (MEL), an emerging research field in which textual and visual information is used to map an ambiguous mention to an entity in a knowledge base (KB). First, we propose a method for building a fully annotated Twitter dataset for MEL, where entities are defined in a Twitter KB. Then, we propose a model for jointly learning a representation of both mentions and entities from their textual and visual contexts. We demonstrate the effectiveness of the proposed model by evaluating it on the proposed dataset and highlight the importance of leveraging visual information when it is available.
Abstract（参考訳）: 多くの情報抽出アプリケーションにおいて、名前付きエンティティに関する情報を知識ベースから活用するための重要なタスクとしてエンティティリンク(EL)が登場している。本稿では,知識ベース(KB)におけるエンティティへの曖昧な言及をテキストと視覚情報を用いてマッピングする,MEL(Multimodal entity Linking)の課題に対処する。まず、MELのための完全に注釈付けされたTwitterデータセットを構築する方法を提案し、そこではエンティティをTwitter KBで定義する。次に,テキストと視覚の文脈から言及と実体の両方の表現を共同学習するモデルを提案する。提案モデルの有効性を,提案したデータセット上で評価し,利用可能なときに視覚情報を活用することの重要性を強調する。

関連論文リスト

VP-MEL: Visual Prompts Guided Multimodal Entity Linking [16.463229055333407]
MEL(Multimodal entity Linking)は、知識ベース(KB)において、マルチモーダルコンテキスト内の参照を対応するエンティティにリンクすることを目的としたタスクである。既存のMEL手法は、しばしば検索手段として言及された単語を頼りにしており、画像とテキストの両方からの情報を効果的に活用する能力を制限する。我々は,視覚的プロンプトを用いた視覚的特徴抽出を強化し,事前学習されたディレクティブ-VLMモデルを用いて潜時情報をキャプチャするIIERというフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-09T18:06:39Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
DIM: Dynamic Integration of Multimodal Entity Linking with Large Language Model [16.20833396645551]
本稿では,ChatGPTを用いた動的エンティティ抽出を提案する。知識ベース(DIM)とマルチモーダル情報を動的に統合し、視覚的理解にLarge Language Model(LLM)の機能を利用する方法を提案する。
論文参考訳（メタデータ） (2024-06-27T15:18:23Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
AMELI: Enhancing Multimodal Entity Linking with Fine-Grained Attributes [46.67148487519558]
属性対応マルチモーダルエンティティリンクを提案する。入力は、テキスト段落と画像で記述された言及からなる。目標は、マルチモーダルな知識ベースから対応する対象エンティティを予測することである。
論文参考訳（メタデータ） (2023-05-24T05:01:48Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)
Visual Named Entity Linking: A New Dataset and A Baseline [61.38231023490981]
入力は画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(VNEL)タスクを考える。本稿では,視覚的・視覚的エンティティリンク(V2VEL),視覚的・テキスト的エンティティリンク(V2TEL),視覚的・テキスト的エンティティリンク(V2VEL)の3つのサブタスクを提案する。 WIKIPersonという,高品質な人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人称人
論文参考訳（メタデータ） (2022-11-09T13:27:50Z)
Injecting Knowledge Base Information into End-to-End Joint Entity and Relation Extraction and Coreference Resolution [13.973471173349072]
我々は、教師なしエンティティリンクに基づいて、そのようなIEモデルの知識ベース(KB)から情報を注入する方法を研究する。使用済みKBエンティティ表現は、(i)ハイパーリンクテキスト文書(Wikipedia)または(ii)知識グラフ(Wikidata)から学習される。
論文参考訳（メタデータ） (2021-07-05T21:49:02Z)
InSRL: A Multi-view Learning Framework Fusing Multiple Information Sources for Distantly-supervised Relation Extraction [19.176183245280267]
ナレッジベースに広く存在する2つのソース、すなわちエンティティ記述と複数の粒度のエンティティタイプを紹介します。 Intact Space Representation Learning (InSRL) による関係抽出のためのエンドツーエンドのマルチビュー学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-12-17T02:49:46Z)
Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文参考訳（メタデータ） (2020-04-29T14:22:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。