論文の概要: AspectMMKG: A Multi-modal Knowledge Graph with Aspect-aware Entities
- arxiv url: http://arxiv.org/abs/2308.04992v1
- Date: Wed, 9 Aug 2023 14:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 13:12:49.187516
- Title: AspectMMKG: A Multi-modal Knowledge Graph with Aspect-aware Entities
- Title(参考訳): AspectMMKG: アスペクト認識エンティティを備えたマルチモーダル知識グラフ
- Authors: Jingdan Zhang, Jiaan Wang, Xiaodan Wang, Zhixu Li, Yanghua Xiao
- Abstract要約: アスペクト関連画像を持つ最初のMMKGであるAspectMMKGを構築する。
AspectMMKGは、AspectMMKGの助けを借りて、新しい最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 15.227621699574415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal knowledge graphs (MMKGs) combine different modal data (e.g., text
and image) for a comprehensive understanding of entities. Despite the recent
progress of large-scale MMKGs, existing MMKGs neglect the multi-aspect nature
of entities, limiting the ability to comprehend entities from various
perspectives. In this paper, we construct AspectMMKG, the first MMKG with
aspect-related images by matching images to different entity aspects.
Specifically, we collect aspect-related images from a knowledge base, and
further extract aspect-related sentences from the knowledge base as queries to
retrieve a large number of aspect-related images via an online image search
engine. Finally, AspectMMKG contains 2,380 entities, 18,139 entity aspects, and
645,383 aspect-related images. We demonstrate the usability of AspectMMKG in
entity aspect linking (EAL) downstream task and show that previous EAL models
achieve a new state-of-the-art performance with the help of AspectMMKG. To
facilitate the research on aspect-related MMKG, we further propose an
aspect-related image retrieval (AIR) model, that aims to correct and expand
aspect-related images in AspectMMKG. We train an AIR model to learn the
relationship between entity image and entity aspect-related images by
incorporating entity image, aspect, and aspect image information. Experimental
results indicate that the AIR model could retrieve suitable images for a given
entity w.r.t different aspects.
- Abstract(参考訳): マルチモーダル知識グラフ(MMKG)は、さまざまなモーダルデータ(テキストや画像など)を組み合わせて、エンティティを包括的に理解する。
近年の大規模MMKGの進歩にもかかわらず、既存のMMKGはエンティティの多面的な性質を無視し、さまざまな観点からエンティティを理解する能力を制限する。
本稿では,アスペクト関連画像を持つ最初のMMKGであるAspectMMKGを構築する。
具体的には、知識ベースからアスペクト関連画像を集め、さらに知識ベースからアスペクト関連文をクエリとして抽出し、オンライン画像検索エンジンを介して多数のアスペクト関連画像を取得する。
最後に、AspectMMKGには2,380のエンティティ、18,139のエンティティアスペクト、645,383のアスペクト関連イメージが含まれている。
本稿では,エンティティ・アスペクト・リンク(EAL)下流タスクにおけるAspectMMKGのユーザビリティを実証し,従来のEALモデルがAspectMMKGの助けを借りて新たな最先端性能を実現することを示す。
AspectMMKGにおけるアスペクト関連画像の修正と拡張を目的としたアスペクト関連画像検索(AIR)モデルを提案する。
エンティティ画像,アスペクト,アスペクト情報を組み込んで,エンティティ画像とエンティティアスペクト関連画像の関係を学習するために,airモデルを訓練する。
実験結果は、エアモデルが与えられたエンティティ w.r.t の異なる側面に適した画像を取得することができることを示した。
関連論文リスト
- ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Light Up the Shadows: Enhance Long-Tailed Entity Grounding with Concept-Guided Vision-Language Models [61.203151615743366]
我々は,Concept-Guided視覚言語モデルを用いた2段階フレームワークであるCOGを紹介する。
このフレームワークは、長い尾を持つエンティティのイメージテキスト対を効果的に識別するConcept Integrationモジュールと、説明可能性を提供し、人間の検証を可能にするEvidence Fusionモジュールとを備える。
包括的実験により,COGはベースラインよりも長い尾を持つ画像とテキストのペアを認識する精度が向上するだけでなく,柔軟性や説明性も向上することが示された。
論文 参考訳(メタデータ) (2024-06-16T11:49:00Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z) - Attribute-Consistent Knowledge Graph Representation Learning for
Multi-Modal Entity Alignment [14.658282035561792]
MMEA(ACK-MMEA)のための属性一貫性のある知識グラフ表現学習フレームワークを提案する。
当社のアプローチは、競合他社と比較して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-04T06:39:36Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Visual Pivoting for (Unsupervised) Entity Alignment [93.82387952905756]
本研究は、異種知識グラフ(KGs)におけるエンティティの整列のための視覚的意味表現の使用について研究する。
提案した新しいアプローチであるEVAは、クロスグラフエンティティアライメントのための強い信号を提供する包括的エンティティ表現を生成する。
論文 参考訳(メタデータ) (2020-09-28T20:09:40Z) - Entity Profiling in Knowledge Graphs [5.582713124168685]
本稿では,特徴を識別するための新しいプロファイリング手法を提案する。
特徴の特異性は、HASモデルによって慎重に測定される。
実知識グラフから生成されたエンティティプロファイルの品質を十分に評価する。
論文 参考訳(メタデータ) (2020-02-29T03:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。