論文の概要: ELMM: Efficient Lightweight Multimodal Large Language Models for Multimodal Knowledge Graph Completion
- arxiv url: http://arxiv.org/abs/2510.16753v1
- Date: Sun, 19 Oct 2025 08:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.129431
- Title: ELMM: Efficient Lightweight Multimodal Large Language Models for Multimodal Knowledge Graph Completion
- Title(参考訳): ELMM:マルチモーダル知識グラフ補完のための効率的な軽量マルチモーダル大言語モデル
- Authors: Wei Huang, Peining Li, Meiyu Liang, Xu Hou, Junping Du, Yingxia Shao, Guanhua Ye, Wu Liu, Kangkang Lu, Yang Yu,
- Abstract要約: マルチモーダル知識グラフ(MKG)は、視覚的およびテキスト的モダリティを取り入れ、よりリッチで表現力のあるエンティティ表現を可能にすることで、従来の知識グラフを拡張している。
既存のMKGは、しばしば不完全性に悩まされ、下流のタスクにおいてその効果を阻害する。
大規模言語モデル (LLMs) は知識グラフ補完 (KGC) を約束している。
MKGCのための効率的な軽量マルチモーダル言語モデル(ELMM)を提案する。
- 参考スコア(独自算出の注目度): 34.49091265125411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Knowledge Graphs (MKGs) extend traditional knowledge graphs by incorporating visual and textual modalities, enabling richer and more expressive entity representations. However, existing MKGs often suffer from incompleteness, which hinder their effectiveness in downstream tasks. Therefore, multimodal knowledge graph completion (MKGC) task is receiving increasing attention. While large language models (LLMs) have shown promise for knowledge graph completion (KGC), their application to the multimodal setting remains underexplored. Moreover, applying Multimodal Large Language Models (MLLMs) to the task of MKGC introduces significant challenges: (1) the large number of image tokens per entity leads to semantic noise and modality conflicts, and (2) the high computational cost of processing large token inputs. To address these issues, we propose Efficient Lightweight Multimodal Large Language Models (ELMM) for MKGC. ELMM proposes a Multi-view Visual Token Compressor (MVTC) based on multi-head attention mechanism, which adaptively compresses image tokens from both textual and visual views, thereby effectively reducing redundancy while retaining necessary information and avoiding modality conflicts. Additionally, we design an attention pruning strategy to remove redundant attention layers from MLLMs, thereby significantly reducing the inference cost. We further introduce a linear projection to compensate for the performance degradation caused by pruning. Extensive experiments on benchmark FB15k-237-IMG and WN18-IMG demonstrate that ELMM achieves state-of-the-art performance while substantially improving computational efficiency, establishing a new paradigm for multimodal knowledge graph completion.
- Abstract(参考訳): マルチモーダル知識グラフ(MKG)は、視覚的およびテキスト的モダリティを取り入れ、よりリッチで表現力のあるエンティティ表現を可能にすることで、従来の知識グラフを拡張している。
しかし、既存のMKGは不完全性に悩まされることが多く、下流のタスクにおいてその効果を阻害する。
そのため、マルチモーダル知識グラフ補完(MKGC)タスクが注目されている。
大規模言語モデル (LLM) では知識グラフ補完 (KGC) が期待されているが, マルチモーダル設定への応用は未定である。
さらに,MKGCのタスクにMLLM(Multimodal Large Language Models)を適用すると,1)エンティティごとの大量の画像トークンが意味的なノイズやモダリティの衝突につながること,2)大きなトークン入力を処理するための計算コストが高くなること,といった大きな課題が生じる。
これらの問題に対処するために,我々は,MKGCのための効率的な軽量マルチモーダル大言語モデル(ELMM)を提案する。
ELMM はマルチヘッドアテンション機構に基づくマルチビュービジュアルトーケン圧縮器 (MVTC) を提案し,テキストと視覚の両方から画像トークンを適応的に圧縮することにより,必要な情報を保持しながら冗長性を効果的に低減し,モダリティの衝突を回避する。
さらに,MLLMから余分な注意層を取り除き,推論コストを大幅に削減するアテンションプルーニング戦略を設計する。
さらに, 刈り込みによる性能劣化を補う線形射影を導入する。
FB15k-237-IMG と WN18-IMG のベンチマーク実験により,ELMM は計算効率を大幅に向上し,マルチモーダル知識グラフの補完のための新たなパラダイムを確立した。
関連論文リスト
- True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance [9.782362715017596]
視覚トークン列の長さを削減するために設計された,シンプルで効果的なプラグアンドプレイモジュールであるFOLDERを紹介する。
我々は、異なる還元戦略によってもたらされた情報損失を分析し、視覚的冗長性を取り除きながら鍵情報を保存するFOLDERを開発した。
FOLDERは、オリジナルのモデルと同等またはそれ以上のパフォーマンスを達成すると同時に、最大70%のビジュアルトークンを削除することで、複雑さを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-05T03:28:45Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Tokenization, Fusion, and Augmentation: Towards Fine-grained Multi-modal Entity Representation [51.80447197290866]
マルチモーダル知識グラフ補完(MMKGC)は、与えられた知識グラフから観測されていない知識を発見することを目的としている。
既存のMMKGCメソッドは通常、事前訓練されたモデルでマルチモーダルな特徴を抽出する。
エンティティの微細なマルチモーダル表現をトークン化し、融合し、拡張する新しいフレームワークであるMyGOを紹介します。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。