論文の概要: Spatial Knowledge Graph-Guided Multimodal Synthesis
- arxiv url: http://arxiv.org/abs/2505.22633v2
- Date: Sun, 02 Nov 2025 21:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:22.046186
- Title: Spatial Knowledge Graph-Guided Multimodal Synthesis
- Title(参考訳): 空間知識グラフを用いたマルチモーダル合成
- Authors: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Kehai Chen, Min Zhang, Huajun Chen, Ningyu Zhang,
- Abstract要約: 本稿では,空間知識グラフによって導かれる新しいマルチモーダル合成手法を提案する。
実験では、方向や距離を含む多様な空間知識から合成されたデータにより、MLLMの空間知覚と推論能力が著しく向上する。
知識に基づくデータ合成のアイデアが空間知性の発展を促進することを願っている。
- 参考スコア(独自算出の注目度): 78.11669780958657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have significantly enhanced their capabilities; however, their spatial perception abilities remain a notable limitation. To address this challenge, multimodal data synthesis offers a promising solution. Yet, ensuring that synthesized data adhere to spatial common sense is a non-trivial task. Our approach addresses this critical gap by providing a systematic framework for generating spatially coherent data. In this work, we introduce SKG2DATA, a novel multimodal synthesis approach guided by spatial knowledge graphs, grounded in the concept of knowledge-to-data generation. SKG2DATA employs an automated pipeline for constructing Spatial Knowledge Graph (SKG) that effectively captures human-like spatial cognition, including directional and distance relationships. These structured representations then serve as precise guidance for our integrated synthesis pipeline, where a diffusion model generates spatially-consistent images while a MLLM produces corresponding textual descriptions. The automated construction of SKG enables scalable generation of diverse yet realistic spatial configurations, overcoming the limitations of manual data collection and annotation. Extensive experiments demonstrate that data synthesized from diverse types of spatial knowledge, including direction and distance, enhance the spatial perception and reasoning abilities of MLLMs markedly, albeit with a slight cost to their general capabilities. We hope that the idea of knowledge-based data synthesis can advance the development of spatial intelligence. Code is available at https://github.com/zjunlp/Knowledge2Data.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、その能力を大幅に向上させたが、その空間認識能力は依然として顕著な限界である。
この課題に対処するため、マルチモーダルデータ合成は有望な解決策を提供する。
しかし、合成されたデータが空間的常識に忠実であることを保証することは、非自明な作業である。
提案手法は,空間的に一貫性のあるデータを生成するための体系的な枠組みを提供することによって,この重要なギャップに対処する。
本研究では,空間知識グラフによって導かれる新しいマルチモーダル合成手法であるSKG2DATAを紹介する。
SKG2DATAは、方向と距離の関係を含む人間のような空間認知を効果的に捉える空間知識グラフ(SKG)を構築するために、自動パイプラインを使用する。
これらの構造的表現は、拡散モデルが空間的に一貫性のある画像を生成し、MLLMが対応するテキスト記述を生成するような統合合成パイプラインの正確なガイダンスとして機能する。
SKGの自動構築により、手動データ収集とアノテーションの制限を克服し、多様な空間構成をスケーラブルに生成できる。
大規模な実験により、方向や距離を含む多様な空間知識から合成されたデータは、MLLMの空間知覚と推論能力を大幅に向上するが、その一般的な能力にはわずかなコストがかかる。
知識に基づくデータ合成のアイデアが空間知性の発展を促進することを願っている。
コードはhttps://github.com/zjunlp/Knowledge2Dataで入手できる。
関連論文リスト
- Can LLMs Learn to Map the World from Local Descriptions? [50.490593949836146]
本研究では,Large Language Models (LLMs) がコヒーレントなグローバル空間認識を構築できるかどうかを検討する。
都市環境を模擬した実験により, LLMは実空間分布に一致した潜在表現を示すことを示した。
論文 参考訳(メタデータ) (2025-05-27T08:22:58Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Conservation-informed Graph Learning for Spatiotemporal Dynamics Prediction [84.26340606752763]
本稿では,保護インフォームドGNN(CiGNN)について紹介する。
このネットワークは、保守的かつ非保守的な情報が、潜時的行進戦略によって多次元空間を通過する対称性による一般的な対称性保存則に従うように設計されている。
結果は,CiGNNが顕著なベースライン精度と一般化性を示し,様々な時間的ダイナミクスの予測のための学習に容易に適用可能であることを示した。
論文 参考訳(メタデータ) (2024-12-30T13:55:59Z) - Spherinator and HiPSter: Representation Learning for Unbiased Knowledge Discovery from Simulations [0.0]
我々は、幅広いシミュレーションから有用な科学的洞察を得るための、新しい、偏見のない、機械学習に基づくアプローチについて説明する。
我々の概念は、低次元空間におけるデータのコンパクトな表現を学習するために非線形次元削減を適用することに基づいている。
本稿では、回転不変な超球面変動畳み込み自己エンコーダを用いて、潜時空間の電力分布を利用して、IllustrisTNGシミュレーションから銀河を訓練したプロトタイプを提案する。
論文 参考訳(メタデータ) (2024-06-06T07:34:58Z) - Deep Learning for Spatiotemporal Big Data: A Vision on Opportunities and
Challenges [4.497634148674422]
一時的ビッグデータは、これまで不可能だった問題を解決する新たな機会を育むことができる。
ビッグデータの特徴は、ディープラーニング技術に新たな課題をもたらす。
論文 参考訳(メタデータ) (2023-10-30T19:12:51Z) - Approach to Data Science with Multiscale Information Theory [0.0]
データサイエンスは、大規模で複雑なデータセットから貴重な洞察を抽出する上で重要な役割を果たす、多分野の分野である。
データサイエンスの世界では、情報理論(IT)と統計力学(SM)の2つの基本的な要素がある。
本稿では,このデータサイエンスの枠組みを粒子からなる大規模かつ複雑な機械システムに適用する。
論文 参考訳(メタデータ) (2023-05-23T01:08:50Z) - Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep
Learning [77.34726150561087]
本稿では,公開されているリモートセンシングデータからなるマルチモーダル・大規模時間データセットを作成するためのアプローチを提案する。
我々は、異なる種類の植生を分離できる畳み込みニューラルネットワーク(CNN)モデルを使用する。
論文 参考訳(メタデータ) (2022-09-28T18:51:59Z) - Dominant motion identification of multi-particle system using deep
learning from video [0.0]
本研究では,高度システムの実世界映像から関連情報を抽出するディープラーニングフレームワークを提案する。
本手法は,アリ,シロアリ,魚の閉じ込められた多エージェント/粒子系のビデオで実証する。
さらに,これらの多様なシステムがどのようにして基礎となる振る舞いを予測できるかを考察する。
論文 参考訳(メタデータ) (2021-04-26T17:10:56Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。