Fugu-MT 論文翻訳(概要): AMELI: Enhancing Multimodal Entity Linking with Fine-Grained Attributes

論文の概要: AMELI: Enhancing Multimodal Entity Linking with Fine-Grained Attributes

arxiv url: http://arxiv.org/abs/2305.14725v2
Date: Tue, 10 Jun 2025 23:03:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:01.302603
Title: AMELI: Enhancing Multimodal Entity Linking with Fine-Grained Attributes
Title（参考訳）: AMELI: 細粒度属性によるマルチモーダルエンティティリンクの強化
Authors: Barry Menglong Yao, Sijia Wang, Yu Chen, Qifan Wang, Minqian Liu, Zhiyang Xu, Licheng Yu, Lifu Huang,
Abstract要約: 属性対応マルチモーダルエンティティリンクを提案する。入力は、テキスト段落と画像で記述された言及からなる。目標は、マルチモーダルな知識ベースから対応する対象エンティティを予測することである。
参考スコア（独自算出の注目度）: 46.67148487519558
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose attribute-aware multimodal entity linking, where the input consists of a mention described with a text paragraph and images, and the goal is to predict the corresponding target entity from a multimodal knowledge base (KB) where each entity is also accompanied by a text description, visual images, and a collection of attributes that present the meta-information of the entity in a structured format. To facilitate this research endeavor, we construct AMELI, encompassing a new multimodal entity linking benchmark dataset that contains 16,735 mentions described in text and associated with 30,472 images, and a multimodal knowledge base that covers 34,690 entities along with 177,873 entity images and 798,216 attributes. To establish baseline performance on AMELI, we experiment with several state-of-the-art architectures for multimodal entity linking and further propose a new approach that incorporates attributes of entities into disambiguation. Experimental results and extensive qualitative analysis demonstrate that extracting and understanding the attributes of mentions from their text descriptions and visual images play a vital role in multimodal entity linking. To the best of our knowledge, we are the first to integrate attributes in the multimodal entity linking task. The programs, model checkpoints, and the dataset are publicly available at https://github.com/VT-NLP/Ameli.
Abstract（参考訳）: テキスト段落と画像で記述された言及からなる属性対応マルチモーダルエンティティリンクを提案し、その目的は、各エンティティにテキスト記述、ビジュアルイメージ、構造化形式でエンティティのメタ情報を示す属性の集合が付随する多モーダル知識ベース(KB)から、対応する対象エンティティを予測することである。本研究を容易にするために、AMELIはテキストで記述された16,735個の言及と30,472個の画像を含む新しいマルチモーダルエンティティリンクベンチマークデータセットと、34,690個のエンティティと177,873個のエンティティイメージと798,216個の属性を含むマルチモーダル知識ベースを含む。 AMELI上でのベースライン性能を確立するために,マルチモーダルなエンティティリンクのための最先端アーキテクチャをいくつか試行し,エンティティの属性を曖昧さに組み込む新しいアプローチを提案する。実験結果と広範囲な質的分析により,テキスト記述や視覚画像から言及の属性を抽出し,理解することが,マルチモーダルな実体リンクにおいて重要な役割を担っていることが示された。私たちの知る限りでは、マルチモーダルなエンティティリンクタスクに属性を統合するのは初めてです。プログラム、モデルチェックポイント、データセットはhttps://github.com/VT-NLP/Ameli.comで公開されている。

関連論文リスト

Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
DIM: Dynamic Integration of Multimodal Entity Linking with Large Language Model [16.20833396645551]
本稿では,ChatGPTを用いた動的エンティティ抽出を提案する。知識ベース(DIM)とマルチモーダル情報を動的に統合し、視覚的理解にLarge Language Model(LLM)の機能を利用する方法を提案する。
論文参考訳（メタデータ） (2024-06-27T15:18:23Z)
MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning [33.12021227971062]
合成ゼロショット学習(CZSL)は、意味的プリミティブ(属性とオブジェクト)を無視して学習し、見知らぬ属性オブジェクトの合成を認識することを目的としている。我々は18,217のイメージと11,067のコンポジションを含む多属性合成データセットを紹介した。我々のデータセットは、より深い意味理解と高次属性関連をサポートし、CZSLタスクのより現実的で挑戦的なベンチマークを提供する。
論文参考訳（メタデータ） (2024-06-18T16:24:48Z)
EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM [52.016009472409166]
EIVENは暗黙的な属性値抽出のためのデータおよびパラメータ効率の良い生成フレームワークである。本稿では,モデル混同を減らすための新しい学習・比較手法を提案する。実験の結果,EIVENは暗黙的属性値の抽出において既存の手法よりも有意に優れていることがわかった。
論文参考訳（メタデータ） (2024-04-13T03:15:56Z)
Attribute-Consistent Knowledge Graph Representation Learning for Multi-Modal Entity Alignment [14.658282035561792]
MMEA(ACK-MMEA)のための属性一貫性のある知識グラフ表現学習フレームワークを提案する。当社のアプローチは、競合他社と比較して優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-04-04T06:39:36Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)
Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文参考訳（メタデータ） (2022-09-02T08:59:57Z)
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文参考訳（メタデータ） (2022-06-17T15:40:45Z)
Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-07-26T05:50:41Z)
AdaTag: Multi-Attribute Value Extraction from Product Profiles with Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文参考訳（メタデータ） (2021-06-04T07:54:11Z)
Multimodal Entity Linking for Tweets [6.439761523935613]
マルチモーダル・エンティティ・リンク(MEL)は、知識ベース(KB)のエンティティへの曖昧な言及をマッピングするためにテキストと視覚情報を使用する新興の研究分野である。我々は,MEL のための完全注釈付き Twitter データセットを構築する方法を提案し,エンティティは Twitter KB で定義されている。次に,テキストと視覚の文脈から言及と実体の両方の表現を共同学習するモデルを提案する。
論文参考訳（メタデータ） (2021-04-07T16:40:23Z)
Multimodal Joint Attribute Prediction and Value Extraction for E-commerce Product [40.46223408546036]
商品属性値は、カスタマサービスロボット、製品レコメンデーション、製品検索など、多くのEコマースシナリオにおいて不可欠である。現実の世界では、製品の属性値は通常不完全であり、時間とともに変化するため、実用的な応用を著しく妨げている。本稿では,製品属性を共同で予測し,製品イメージの助けを借りてテキスト製品記述から価値を抽出するマルチモーダル手法を提案する。
論文参考訳（メタデータ） (2020-09-15T15:10:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。