論文の概要: MMCOMET: A Large-Scale Multimodal Commonsense Knowledge Graph for Contextual Reasoning
- arxiv url: http://arxiv.org/abs/2603.01055v1
- Date: Sun, 01 Mar 2026 11:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.483849
- Title: MMCOMET: A Large-Scale Multimodal Commonsense Knowledge Graph for Contextual Reasoning
- Title(参考訳): MMCOMET:コンテキスト推論のための大規模マルチモーダルコモンセンス知識グラフ
- Authors: Eileen Wang, Hiba Arnaout, Dhita Pratama, Shuo Yang, Dangyang Liu, Jie Yang, Josiah Poon, Jeff Pan, Caren Han,
- Abstract要約: 本稿では,身体的,社会的,事象的知識を統合した最初のマルチモーダルコモンセンス知識グラフMMCOMETを提案する。
MMCOMETはATOMIC 2020ナレッジグラフを拡張して、効率的な画像検索プロセスを通じて、視覚次元を含むように拡張し、900万以上のマルチモーダルトリプルを実現する。
- 参考スコア(独自算出の注目度): 12.764062149470133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MMCOMET, the first multimodal commonsense knowledge graph (MMKG) that integrates physical, social, and eventive knowledge. MMCOMET extends the ATOMIC2020 knowledge graph to include a visual dimension, through an efficient image retrieval process, resulting in over 900K multimodal triples. This new resource addresses a major limitation of existing MMKGs in supporting complex reasoning tasks like image captioning and storytelling. Through a standard visual storytelling experiment, we show that our holistic approach enables the generation of richer, coherent, and contextually grounded stories than those produced using text-only knowledge. This resource establishes a new foundation for multimodal commonsense reasoning and narrative generation.
- Abstract(参考訳): 本稿では,身体的,社会的,事象的知識を統合した最初のマルチモーダルコモンセンス知識グラフMMCOMETを提案する。
MMCOMETはATOMIC2020知識グラフを拡張し、効率的な画像検索プロセスを通じて視覚次元を含むように拡張し、900万以上のマルチモーダルトリプルを生成する。
この新たなリソースは、画像キャプションやストーリーテリングといった複雑な推論タスクをサポートするために、既存のMMKGの大きな制限に対処する。
標準的なビジュアルストーリーテリング実験により,本手法により,テキストのみの知識を用いたよりリッチでコヒーレントな,文脈に根ざしたストーリーを生成できることを示す。
このリソースはマルチモーダル・コモンセンス推論と物語生成のための新しい基盤を確立する。
関連論文リスト
- Graph4MM: Weaving Multimodal Learning with Structural Information [52.16646463590474]
グラフは、モーダル内およびモーダル間関係をモデル化するための強力な構造情報を提供する。
それまでの作業では、マルチホップの隣人を区別できず、グラフをスタンドアローンのモダリティとして扱う。
グラフベースのマルチモーダル学習フレームワークであるGraph4MMを提案する。
論文 参考訳(メタデータ) (2025-10-19T20:13:03Z) - VAT-KG: Knowledge-Intensive Multimodal Knowledge Graph Dataset for Retrieval-Augmented Generation [16.248703946640735]
マルチモーダル知識グラフ(MMKG)は、複数のモーダルにまたがる明示的な知識を表す。
Visual-Audio-Text Knowledge Graph (VAT-KG)は、概念中心で知識集約型のマルチモーダル知識グラフである。
論文 参考訳(メタデータ) (2025-06-11T07:22:57Z) - Visual Text Matters: Improving Text-KVQA with Visual Text Entity Knowledge-aware Large Multimodal Assistant [2.1548552367634026]
我々は、知識を意識したテキストベースの視覚的質問応答(Text-KVQA)を再考する。
ビジュアルテキストエンティティリンクを行うための原則的アプローチであるVisTELを提案する。
知識を意識した大規模マルチモーダルアシスタントKaLMAについて紹介する。
論文 参考訳(メタデータ) (2024-10-24T20:25:38Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Tokenization, Fusion, and Augmentation: Towards Fine-grained Multi-modal Entity Representation [51.80447197290866]
マルチモーダル知識グラフ補完(MMKGC)は、与えられた知識グラフから観測されていない知識を発見することを目的としている。
既存のMMKGCメソッドは通常、事前訓練されたモデルでマルチモーダルな特徴を抽出する。
エンティティの微細なマルチモーダル表現をトークン化し、融合し、拡張する新しいフレームワークであるMyGOを紹介します。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - Modality-Aware Integration with Large Language Models for
Knowledge-based Visual Question Answering [28.48844388792774]
KVQA(MAIL)のための大規模言語モデル(LLM)との新たなモダリティ対応統合を提案する。
MAILは画像理解と知識推論の両方にマルチモーダル知識を慎重に活用する。
2つのベンチマークデータセットの実験は、リソースが24倍少ないMAILの優位性を示している。
論文 参考訳(メタデータ) (2024-02-20T05:32:24Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Multi-Modal Knowledge Graph Construction and Application: A Survey [17.203534055251435]
知識グラフのマルチモーダル化は、人間レベルのマシンインテリジェンスの実現に向けた必然的な重要なステップである。
まず、テキストや画像によって構築されたMMKGの定義と、マルチモーダルなタスクやテクニックに関する予備的な定義を示す。
次に,MMKGの構築と適用における課題,進歩,機会を,それぞれ体系的に検討し,それぞれの解の強度と弱さを詳細に分析した。
論文 参考訳(メタデータ) (2022-02-11T17:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。