論文の概要: Vision, Deduction and Alignment: An Empirical Study on Multi-modal
Knowledge Graph Alignment
- arxiv url: http://arxiv.org/abs/2302.08774v1
- Date: Fri, 17 Feb 2023 09:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 15:22:40.088474
- Title: Vision, Deduction and Alignment: An Empirical Study on Multi-modal
Knowledge Graph Alignment
- Title(参考訳): ビジョン・推論・アライメント:マルチモーダル知識グラフアライメントに関する実証的研究
- Authors: Yangning Li, Jiaoyan Chen, Yinghui Li, Yuejia Xiang, Xi Chen, Hai-Tao
Zheng
- Abstract要約: われわれはまず8つの大規模画像付きEAベンチマークであるMulti-OpenEAを構築し、画像を利用する既存の埋め込み方式を評価した。
視覚的モーダル情報と論理的推論の相補性の観点から,LODEMEという新しいマルチモーダルEA法を開発した。
- 参考スコア(独自算出の注目度): 30.35207258680977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity alignment (EA) for knowledge graphs (KGs) plays a critical role in
knowledge engineering. Existing EA methods mostly focus on utilizing the graph
structures and entity attributes (including literals), but ignore images that
are common in modern multi-modal KGs. In this study we first constructed
Multi-OpenEA -- eight large-scale, image-equipped EA benchmarks, and then
evaluated some existing embedding-based methods for utilizing images. In view
of the complementary nature of visual modal information and logical deduction,
we further developed a new multi-modal EA method named LODEME using logical
deduction and multi-modal KG embedding, with state-of-the-art performance
achieved on Multi-OpenEA and other existing multi-modal EA benchmarks.
- Abstract(参考訳): 知識グラフのためのエンティティアライメント(EA)は知識工学において重要な役割を果たす。
既存のEA手法は主にグラフ構造とエンティティ属性(リテラルを含む)の利用に重点を置いているが、現代のマルチモーダルKGで一般的な画像は無視している。
本研究では,まず8つの大規模画像付きEAベンチマークを構築し,既存の埋め込みベースの画像利用手法を評価した。
視覚的モーダル情報と論理的推論の相補性の観点から、我々は、論理的推論とマルチモーダルKG埋め込みを用いたLODEMEと呼ばれる新しいマルチモーダルEA手法を開発し、マルチOpenEAや他の既存のマルチモーダルEAベンチマークで最新性能を達成した。
関連論文リスト
- The Power of Noise: Toward a Unified Multi-modal Knowledge Graph
Representation Framework [49.03191594327588]
マルチモーダルな知識グラフ(MMKG)表現学習フレームワークは,構造化された知識を大規模に多モーダルな言語モデル(LLM)に統合するために重要である。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は,その堅牢性と汎用性を実証し,合計10データセットにわたるSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - MM-GEF: Multi-modal representation meet collaborative filtering [51.04679619309803]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Prompting ChatGPT in MNER: Enhanced Multimodal Named Entity Recognition
with Auxiliary Refined Knowledge [27.152813529536424]
PGIM - ChatGPTを暗黙の知識基盤として活用することを目的とした2段階のフレームワークを提案する。
PGIMはより効率的なエンティティ予測のための補助知識を生成する。
これは、2つの古典的なMNERデータセットで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-05-20T15:24:38Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - High-quality Task Division for Large-scale Entity Alignment [28.001266850114643]
DivEAは、代替の最先端ソリューションよりも高いEAパフォーマンスを達成する。
我々は、EAタスクの局所性原理と訓練されたEAモデルのパワーを生かした他の発見手法を考案する。
論文 参考訳(メタデータ) (2022-08-22T14:46:38Z) - A Unified Continuous Learning Framework for Multi-modal Knowledge
Discovery and Pre-training [73.7507857547549]
本稿では,継続的学習フレームワークにおける知識発見とマルチモーダル事前学習の統合を提案する。
知識発見のために、事前訓練されたモデルを用いてグラフ上のクロスモーダルリンクを識別する。
モデル事前トレーニングでは、モデル更新をガイドする外部知識として知識グラフが使用される。
論文 参考訳(メタデータ) (2022-06-11T16:05:06Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Can images help recognize entities? A study of the role of images for
Multimodal NER [20.574849371747685]
マルチモーダルな名前付きエンティティ認識(MNER)は、言語理解と視覚的コンテキストのギャップを埋める必要がある。
MNERタスクにイメージを組み込むために多くのマルチモーダルニューラルネットワークが提案されているが、マルチモーダル相互作用を利用するモデルの能力はいまだに理解されていない。
論文 参考訳(メタデータ) (2020-10-23T23:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。