Fugu-MT 論文翻訳(概要): A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking

論文の概要: A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking

arxiv url: http://arxiv.org/abs/2312.11816v1
Date: Tue, 19 Dec 2023 03:15:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 17:09:40.794542
Title: A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking
Title（参考訳）: マルチモーダルエンティティリンクのためのテキストマッチングの観点からの双方向拡張フレームワーク
Authors: Shezheng Song, Shan Zhao, Chengyu Wang, Tianwei Yan, Shasha Li, Xiaoguang Mao, Meng Wang
Abstract要約: マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
参考スコア（独自算出の注目度）: 18.742934572771677
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multimodal Entity Linking (MEL) aims at linking ambiguous mentions with multimodal information to entity in Knowledge Graph (KG) such as Wikipedia, which plays a key role in many applications. However, existing methods suffer from shortcomings, including modality impurity such as noise in raw image and ambiguous textual entity representation, which puts obstacles to MEL. We formulate multimodal entity linking as a neural text matching problem where each multimodal information (text and image) is treated as a query, and the model learns the mapping from each query to the relevant entity from candidate entities. This paper introduces a dual-way enhanced (DWE) framework for MEL: (1) our model refines queries with multimodal data and addresses semantic gaps using cross-modal enhancers between text and image information. Besides, DWE innovatively leverages fine-grained image attributes, including facial characteristic and scene feature, to enhance and refine visual features. (2)By using Wikipedia descriptions, DWE enriches entity semantics and obtains more comprehensive textual representation, which reduces between textual representation and the entities in KG. Extensive experiments on three public benchmarks demonstrate that our method achieves state-of-the-art (SOTA) performance, indicating the superiority of our model. The code is released on https://github.com/season1blue/DWE
Abstract（参考訳）: MEL(Multimodal Entity Linking)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及とマルチモーダル情報をリンクすることを目的としている。しかし、既存の手法では、生画像のノイズや、MELに障害を与える曖昧なテキスト実体表現など、モダリティの不純物などの欠点に悩まされている。本稿では、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題としてリンクするマルチモーダルエンティティを定式化し、各クエリから関連するエンティティへのマッピングを候補エンティティから学習する。本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。(1)本モデルではマルチモーダルデータを用いてクエリを洗練し,テキストと画像情報間のクロスモーダルエンハンサーを用いてセマンティックギャップに対処する。さらにDWEは、顔の特徴やシーンの特徴を含むきめ細かい画像特性を革新的に活用して、視覚的特徴の強化と洗練を実現している。 2) ウィキペディアの記述を用いて、DWEはエンティティのセマンティクスを強化し、より包括的なテキスト表現を得る。 3つの公開ベンチマークによる大規模な実験により,本手法がSOTA(State-of-the-art)性能を達成することを示す。コードはhttps://github.com/season1blue/DWEで公開されている。

関連論文リスト

Entity-Guided Multi-Task Learning for Infrared and Visible Image Fusion [14.3937321254743]
Infrared and visible image fusion (EGMT) のためのEntity-Guided Multi-Task Learning という新しい融合手法を提案する。大規模視覚言語モデルにより生成された画像キャプションからエンティティレベルのテキスト情報を抽出する原理的手法を提案する。並列マルチタスク学習アーキテクチャを構築し、画像融合とマルチラベル分類タスクを統合する。また、視覚的特徴とエンティティレベルのテキスト的特徴のきめ細かい相互作用を容易にするために、エンティティ誘導型クロスモーダルインタラクティブモジュールも開発されている。
論文参考訳（メタデータ） (2026-01-05T08:00:03Z)
Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。 VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文参考訳（メタデータ） (2025-10-21T14:59:29Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文参考訳（メタデータ） (2024-06-07T06:45:28Z)
DWE+: Dual-Way Matching Enhanced Framework for Multimodal Entity Linking [16.728006492769666]
マルチモーダルなエンティティリンクのためのDWE+を提案する。 DWE+はより微細なセマンティクスをキャプチャし、エンティティとのセマンティクスの一貫性を動的に維持できる。 Wikimel、Richpedia、Wikidiverseのデータセットの実験では、DWE+がMELの性能向上に有効であることを実証している。
論文参考訳（メタデータ） (2024-04-07T05:56:42Z)
MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文参考訳（メタデータ） (2024-02-27T06:11:54Z)
Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文参考訳（メタデータ） (2023-10-17T12:39:16Z)
DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking [31.15972952813689]
本稿では,MEL タスクのための Dynamic Relation Interactive Network (DRIN) という新しいフレームワークを提案する。 DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。 2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
論文参考訳（メタデータ） (2023-10-09T10:21:42Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。 EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文参考訳（メタデータ） (2023-05-23T02:59:19Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)
Multi-Granularity Cross-Modality Representation Learning for Named Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。本研究は,多粒性クロスモダリティ表現学習を導入する。実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文参考訳（メタデータ） (2022-10-19T15:14:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。