論文の概要: Multi-Modal Knowledge Graph Transformer Framework for Multi-Modal Entity
Alignment
- arxiv url: http://arxiv.org/abs/2310.06365v1
- Date: Tue, 10 Oct 2023 07:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 18:41:53.502796
- Title: Multi-Modal Knowledge Graph Transformer Framework for Multi-Modal Entity
Alignment
- Title(参考訳): マルチモーダルエンティティアライメントのためのマルチモーダル知識グラフ変換フレームワーク
- Authors: Qian Li, Cheng Ji, Shu Guo, Zhaoji Liang, Lihong Wang, Jianxin Li
- Abstract要約: そこで我々はMoAlignと呼ばれる新しいMMEA変換器を提案し,その特徴,マルチモーダル属性,エンティティタイプを階層的に導入する。
変換器の複数の情報をよりよく統合する能力を利用して、変換器エンコーダの階層的修飾自己保持ブロックを設計する。
当社のアプローチは強力な競争相手よりも優れ,優れたエンティティアライメント性能を実現している。
- 参考スコア(独自算出の注目度): 17.592908862768425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Modal Entity Alignment (MMEA) is a critical task that aims to identify
equivalent entity pairs across multi-modal knowledge graphs (MMKGs). However,
this task faces challenges due to the presence of different types of
information, including neighboring entities, multi-modal attributes, and entity
types. Directly incorporating the above information (e.g., concatenation or
attention) can lead to an unaligned information space. To address these
challenges, we propose a novel MMEA transformer, called MoAlign, that
hierarchically introduces neighbor features, multi-modal attributes, and entity
types to enhance the alignment task. Taking advantage of the transformer's
ability to better integrate multiple information, we design a hierarchical
modifiable self-attention block in a transformer encoder to preserve the unique
semantics of different information. Furthermore, we design two entity-type
prefix injection methods to integrate entity-type information using type
prefixes, which help to restrict the global information of entities not present
in the MMKGs. Our extensive experiments on benchmark datasets demonstrate that
our approach outperforms strong competitors and achieves excellent entity
alignment performance.
- Abstract(参考訳): マルチモーダルエンティティアライメント(mmea)は、マルチモーダルナレッジグラフ(mmkgs)をまたいで同等のエンティティペアを特定することを目的とした重要なタスクである。
しかし、このタスクは、隣接するエンティティ、マルチモーダル属性、エンティティタイプなど、さまざまな種類の情報が存在するため、課題に直面している。
上記の情報を直接組み込むこと(例えば連結や注意)は、整合性のない情報空間につながる。
これらの課題に対処するために、階層的に隣り合う機能、マルチモーダル属性、エンティティタイプを導入してアライメントタスクを強化する、moalignと呼ばれる新しいmmeaトランスフォーマーを提案する。
複数の情報をよりうまく統合できるトランスフォーマティブの能力を利用して、異なる情報のユニークなセマンティクスを保存するためにトランスフォーマエンコーダ内の階層的修飾可能な自己アテンションブロックを設計する。
さらに,2つのエンティティ型プレフィックスインジェクションを設計し,型プレフィックスを用いてエンティティ型情報を統合し,MMKGに存在しないエンティティのグローバルな情報を制限する。
ベンチマークデータセットに関する広範な実験は、我々のアプローチが強力な競合相手を上回り、優れたエンティティアライメント性能を達成していることを示している。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment [17.570243718626994]
マルチモーダル・エンティティ・アライメント(MMEA)は、マルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティを識別することを目的としている。
確率分布としてモーダル固有の実体表現を生成するために,多モード変分エンコーダを考案する。
また、4つのモーダル固有情報ボトルネック正規化器を提案し、モーダル固有実体表現の精製における誤解を招く手がかりを限定する。
論文 参考訳(メタデータ) (2024-07-27T17:12:37Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - MMSFormer: Multimodal Transformer for Material and Semantic Segmentation [16.17270247327955]
本稿では,異なるモダリティの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal TransFormer)と呼ばれる新たなモデルを提案する。
MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。
論文 参考訳(メタデータ) (2023-09-07T20:07:57Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - Transformer-based Entity Typing in Knowledge Graphs [17.134032162338833]
本稿では,エンティティの隣人の内容を効果的にエンコードする,トランスフォーマーベースのエンティティタイピング手法を提案する。
2つの実世界のデータセットの実験は、最先端のデータセットと比較して、TETの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-10-20T10:40:25Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。