論文の概要: Graph World Model
- arxiv url: http://arxiv.org/abs/2507.10539v1
- Date: Mon, 14 Jul 2025 17:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.662498
- Title: Graph World Model
- Title(参考訳): グラフ世界モデル
- Authors: Tao Feng, Yexin Wu, Guanyu Lin, Jiaxuan You,
- Abstract要約: 既存の世界モデル(WM)は主に構造化されていないデータに焦点を当てている。
マルチモーダル情報を用いた非構造化状態とグラフ構造化状態の両方をサポートする世界モデルであるグラフ世界モデル(GWM)を提案する。
- 参考スコア(独自算出の注目度): 12.75565996016737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models (WMs) demonstrate strong capabilities in prediction, generation, and planning tasks. Existing WMs primarily focus on unstructured data and cannot leverage the ubiquitous structured data, often represented as graphs, in the digital world. While multiple graph foundation models have been proposed, they focus on graph learning tasks and cannot extend to diverse multi-modal data and interdisciplinary tasks. To address these challenges, we propose the Graph World Model (GWM), a world model that supports both unstructured and graph-structured states with multi-modal information and represents diverse tasks as actions. The core of a GWM is a generic message-passing algorithm to aggregate structured information, either over a unified multi-modal token space by converting multi-modal data into text (GWM-T) or a unified multi-modal embedding space by modality-specific encoders (GWM-E). Notably, GWM introduces action nodes to support diverse tasks, where action nodes are linked to other nodes via direct reference or similarity computation. Extensive experiments on six tasks from diverse domains, including multi-modal generation and matching, recommendation, graph prediction, multi-agent, retrieval-augmented generation, and planning and optimization, show that the same GWM outperforms or matches domain-specific baselines' performance, benefits from multi-hop structures, and demonstrates strong zero-shot/few-shot capabilities on unseen new tasks. Our code for GWM is released at https://github.com/ulab-uiuc/GWM.
- Abstract(参考訳): 世界モデル(WM)は、予測、生成、計画タスクにおいて強力な能力を示す。
既存のWMは、主に非構造化データに焦点を当てており、デジタル世界では、しばしばグラフとして表されるユビキタスな構造化データを利用することができない。
複数のグラフ基盤モデルが提案されているが、グラフ学習タスクに焦点を当てており、多様なマルチモーダルデータや学際的なタスクに拡張することはできない。
これらの課題に対処するために,多モード情報を用いて非構造化状態とグラフ構造化状態の両方をサポートし,多様なタスクをアクションとして表現する世界モデルであるグラフ世界モデル(GWM)を提案する。
GWMのコアは、マルチモーダルデータをテキスト(GWM-T)に変換するか、モダリティ固有のエンコーダ(GWM-E)で統一されたマルチモーダル埋め込み空間に変換することによって、構造化された情報を集約する汎用メッセージパスアルゴリズムである。
特に、GWMはアクションノードを導入して多様なタスクをサポートし、アクションノードは直接参照または類似性計算によって他のノードにリンクされる。
マルチモーダル生成、マッチング、リコメンデーション、グラフ予測、マルチエージェント、検索拡張生成、および計画と最適化を含む6つの領域のタスクに対する大規模な実験は、同じGWMがドメイン固有のベースラインのパフォーマンスに優れ、マルチホップ構造による恩恵を受けており、新しいタスクが見えない場合に強力なゼロショット/フェーショット機能を示す。
GWMのコードはhttps://github.com/ulab-uiuc/GWM.comで公開されています。
関連論文リスト
- MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs [6.165053219836395]
本稿では,シーングラフを通して視覚コンテンツを洗練し,マルチモーダルな知識グラフを構築するMMGraphRAGを提案する。
スペクトルクラスタリングを用いてクロスモーダルなエンティティリンクを実現し、推論経路に沿ってコンテキストを取得して生成プロセスを導く。
実験結果から,MMGraphRAGはDocBenchとMMLongBenchのデータセット上で最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-07-28T13:16:23Z) - Towards Multi-modal Graph Large Language Model [34.70458746950645]
マルチモーダルグラフ大言語モデル(MG-LLM)の可能性を探り,多様なマルチモーダルグラフデータやタスクを統一・一般化する。
1)マルチモーダルな構造と属性の統一空間,2)多様なマルチモーダルなグラフタスクを扱う能力,3)マルチモーダルなインコンテキスト学習,4)自然言語とのマルチモーダルなグラフインタラクション,5)マルチモーダルなグラフ推論。
論文 参考訳(メタデータ) (2025-06-11T13:41:29Z) - MLaGA: Multimodal Large Language and Graph Assistant [9.985787670804823]
大規模言語モデル (LLMs) は, グラフ構造化データ解析の進歩に有効であることを示す。
複雑なグラフ構造やマルチモーダル属性の推論を容易にするため,LLM機能を拡張する革新的なモデルであるMultimodal Large Language and Graph Assistant (MLaGA)を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:52:00Z) - UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs [34.48393396390799]
マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。
UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。
我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-02-02T14:04:53Z) - Modality-Independent Graph Neural Networks with Global Transformers for Multimodal Recommendation [59.4356484322228]
グラフニューラルネットワーク(GNN)はこの領域で有望なパフォーマンスを示している。
我々は,独立した受容場を持つGNNを別々に採用したModality-Independent Receptive Fieldsを用いたGNNを提案する。
以上の結果から,特定のデータセットの特定のモダリティに対して最適な$K$は,GNNのグローバルな情報取得能力を制限する1または2以下であることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T16:12:26Z) - Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph Learning [36.75510196380185]
本稿では,視覚情報とテキスト情報の両方をグラフ学習タスクに組み込んだ先駆的なベンチマークであるMultimodal Graph Benchmark(MM-GRAPH)を紹介する。
MM-GRAPHは、既存のテキスト分散グラフベンチマークを超えて、マルチモーダルグラフ学習のためのより包括的な評価フレームワークを提供する。
本研究は,視覚データをグラフ学習に統合する上での課題と機会について,貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-06-24T05:14:09Z) - Tokenization, Fusion, and Augmentation: Towards Fine-grained Multi-modal Entity Representation [51.80447197290866]
マルチモーダル知識グラフ補完(MMKGC)は、与えられた知識グラフから観測されていない知識を発見することを目的としている。
既存のMMKGCメソッドは通常、事前訓練されたモデルでマルチモーダルな特徴を抽出する。
エンティティの微細なマルチモーダル表現をトークン化し、融合し、拡張する新しいフレームワークであるMyGOを紹介します。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - A System for Morphology-Task Generalization via Unified Representation
and Behavior Distillation [28.041319351752485]
本研究では,多量の熟練した行動データを蒸留することにより,様々な形態のエージェントを操り,様々なタスクをこなす単一ポリシーを学習する方法について検討する。
本稿では, 観測, 行動, 目標/タスクを統一されたグラフ表現で扱うモルフォロジー・タスクグラフを紹介する。
また,多種多様な形態とタスクの組み合わせの手続き的生成を支援する高速な大規模行動生成のためのMxT-Benchを開発した。
論文 参考訳(メタデータ) (2022-11-25T18:52:48Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - GenURL: A General Framework for Unsupervised Representation Learning [58.59752389815001]
教師なし表現学習(URL)は、教師なしの高次元データのコンパクトな埋め込みを学習する。
本稿では,様々なURLタスクにスムーズに適応可能な類似性ベースの統合URLフレームワークGenURLを提案する。
実験により、GenURLは、自己教師付き視覚学習、無教師付き知識蒸留(KD)、グラフ埋め込み(GE)、次元縮小において、一貫した最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-27T16:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。