論文の概要: Multi-modal Knowledge Graph Generation with Semantics-enriched Prompts
- arxiv url: http://arxiv.org/abs/2504.13631v1
- Date: Fri, 18 Apr 2025 11:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 16:01:59.073591
- Title: Multi-modal Knowledge Graph Generation with Semantics-enriched Prompts
- Title(参考訳): Semantics-enriched Promptsを用いたマルチモーダル知識グラフ生成
- Authors: Yajing Xu, Zhiqiang Liu, Jiaoyan Chen, Mingchen Tu, Zhuo Chen, Jeff Z. Pan, Yichi Zhang, Yushan Zhu, Wen Zhang, Huajun Chen,
- Abstract要約: マルチモーダル知識グラフ(MMKG)は、知識表現のために様々な領域に広く適用されている。
これらの課題に対処するため,従来のKGからMMKGを構築するためのフレームワークを提案する。
与えられた知識グラフの文脈により関係のある高品質な画像を生成するために,我々は隣接選択法を設計した。
- 参考スコア(独自算出の注目度): 53.44583274711562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Knowledge Graphs (MMKGs) have been widely applied across various domains for knowledge representation. However, the existing MMKGs are significantly fewer than required, and their construction faces numerous challenges, particularly in ensuring the selection of high-quality, contextually relevant images for knowledge graph enrichment. To address these challenges, we present a framework for constructing MMKGs from conventional KGs. Furthermore, to generate higher-quality images that are more relevant to the context in the given knowledge graph, we designed a neighbor selection method called Visualizable Structural Neighbor Selection (VSNS). This method consists of two modules: Visualizable Neighbor Selection (VNS) and Structural Neighbor Selection (SNS). The VNS module filters relations that are difficult to visualize, while the SNS module selects neighbors that most effectively capture the structural characteristics of the entity. To evaluate the quality of the generated images, we performed qualitative and quantitative evaluations on two datasets, MKG-Y and DB15K. The experimental results indicate that using the VSNS method to select neighbors results in higher-quality images that are more relevant to the knowledge graph.
- Abstract(参考訳): マルチモーダル知識グラフ(MMKG)は、知識表現のために様々な領域に広く適用されている。
しかし、既存のMMKGは要求よりも大幅に少なく、特に知識グラフのリッチ化のために高品質でコンテキストに関連のある画像の選択を確実にする上で、その構築は多くの課題に直面している。
これらの課題に対処するため,従来のKGからMMKGを構築するためのフレームワークを提案する。
さらに、与えられた知識グラフの文脈により関連性の高い高品質な画像を生成するために、視覚的構造近傍選択(VSNS)と呼ばれる隣り合う選択法を設計した。
この方法は2つのモジュールからなる: Visualizable Neighbor Selection (VNS) と Structure Neighbor Selection (SNS)。
VNSモジュールは、可視化が難しい関係をフィルタリングし、SNSモジュールは、エンティティの構造的特性を最も効果的に捉える隣人を選択する。
生成画像の品質を評価するため,MKG-YとDB15Kの2つのデータセットに対して定性的,定量的な評価を行った。
実験結果から,VSNS法を用いて隣人を選択した結果,知識グラフに関連性の高い高品質な画像が得られた。
関連論文リスト
- Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - RSEA-MVGNN: Multi-View Graph Neural Network with Reliable Structural Enhancement and Aggregation [26.42386423708777]
信頼性の高い構造強化・集約型マルチビューグラフニューラルネットワーク(RSEA-MVGNN)を提案する。
RSEA-MVGNNは、ビュー特有の信念と不確実性を意見として学習し、ビュー品質を評価する。
5つの実世界のデータセットで実施された実験の結果、RSEA-MVGNNは最先端のGNNベースの手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-14T07:13:36Z) - Similarity-based Neighbor Selection for Graph LLMs [43.176381523196426]
類似性に基づく近隣選択(SNS)について紹介する。
SNSは、選択した隣人の品質を改善し、グラフ表現を改善し、オーバースカッシングやヘテロフィリーといった問題を緩和する。
インダクティブでトレーニングのないアプローチとして、SNSは従来のGNN手法よりも優れた一般化とスケーラビリティを示している。
論文 参考訳(メタデータ) (2024-02-06T05:29:05Z) - GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition [37.02054260449195]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。
我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。
実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文 参考訳(メタデータ) (2023-08-28T07:50:04Z) - Multi-view Graph Convolutional Networks with Differentiable Node
Selection [29.575611350389444]
差別化可能なノード選択(MGCN-DNS)を備えた多視点グラフ畳み込みネットワーク(Multi-view Graph Convolutional Network)を提案する。
MGCN-DNSは、マルチチャネルグラフ構造データを入力として受け入れ、微分可能なニューラルネットワークを通じてより堅牢なグラフ融合を学ぶことを目的としている。
提案手法の有効性は,最先端手法と厳密な比較により検証した。
論文 参考訳(メタデータ) (2022-12-09T21:48:36Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Reinforced Neighborhood Selection Guided Multi-Relational Graph Neural
Networks [68.9026534589483]
RioGNNはReinforceed, recursive, flexible neighborhood selection guided multi-relational Graph Neural Network architectureである。
RioGNNは、各関係の個々の重要性の認識により、説明性を高めた差別的なノード埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-04-16T04:30:06Z) - Generating Diverse Structure for Image Inpainting With Hierarchical
VQ-VAE [74.29384873537587]
本稿では,異なる構造を持つ複数の粗い結果を第1段階で生成し,第2段階ではテクスチャを増補して各粗い結果を別々に洗練する,多彩な塗布用2段階モデルを提案する。
CelebA-HQ, Places2, ImageNetデータセットによる実験結果から,本手法は塗布ソリューションの多様性を向上するだけでなく,生成した複数の画像の視覚的品質も向上することが示された。
論文 参考訳(メタデータ) (2021-03-18T05:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。