論文の概要: GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs
- arxiv url: http://arxiv.org/abs/2502.11925v1
- Date: Mon, 17 Feb 2025 15:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:43.241042
- Title: GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs
- Title(参考訳): GraphGPT-O:Synergistic Multimodal Comprehension and Generation on Graphs
- Authors: Yi Fang, Bowen Jin, Jiacheng Shen, Sirui Ding, Qiaoyu Tan, Jiawei Han,
- Abstract要約: テキストと画像は通常相互接続され、マルチモーダル属性グラフ(MMAG)を形成する
MLLMが関係情報 (textiti.e. graph structure) と意味情報 (textiti.e. texts and image) をこのようなグラフに組み込んで、マルチモーダルな理解と生成を行う方法が検討されている。
我々は,MMAGにおける全多モーダル理解と生成を支援するGraphGPT-oを提案する。
- 参考スコア(独自算出の注目度): 34.076036577516895
- License:
- Abstract: The rapid development of Multimodal Large Language Models (MLLMs) has enabled the integration of multiple modalities, including texts and images, within the large language model (LLM) framework. However, texts and images are usually interconnected, forming a multimodal attributed graph (MMAG). It is underexplored how MLLMs can incorporate the relational information (\textit{i.e.}, graph structure) and semantic information (\textit{i.e.,} texts and images) on such graphs for multimodal comprehension and generation. In this paper, we propose GraphGPT-o, which supports omni-multimodal understanding and creation on MMAGs. We first comprehensively study linearization variants to transform semantic and structural information as input for MLLMs. Then, we propose a hierarchical aligner that enables deep graph encoding, bridging the gap between MMAGs and MLLMs. Finally, we explore the inference choices, adapting MLLM to interleaved text and image generation in graph scenarios. Extensive experiments on three datasets from different domains demonstrate the effectiveness of our proposed method. Datasets and codes will be open-sourced upon acceptance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な開発により、テキストや画像を含む複数のモダリティを、大規模言語モデル(LLM)フレームワークに統合できるようになった。
しかし、テキストと画像は通常相互接続され、マルチモーダル属性グラフ(MMAG)を形成する。
MLLM が関係情報 (\textit{i.e.}, グラフ構造) と意味情報 (\textit{i.e.}, テキストと画像) をマルチモーダルな理解と生成のためにどのように組み込むことができるかは、未解明である。
本稿では,MMAG上でのマルチモーダル理解と生成を支援するGraphGPT-oを提案する。
まず,MLLMの入力として意味情報や構造情報を変換するために線形化変種を包括的に研究する。
そこで我々は,MMAGとMLLMのギャップを埋めるディープグラフ符号化を実現する階層型整合器を提案する。
最後に,テキストのインターリーブや画像生成にMLLMを適用し,推論の選択について検討する。
異なる領域の3つのデータセットに対する大規模な実験により,提案手法の有効性が示された。
データセットとコードは受け入れ次第オープンソース化される。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models [14.251972223585765]
本稿では,テキスト,画像,モチーフなどの多様性を持つグラフを符号化する新たな手法を提案する。
また、グラフ構造解析において、LLM(Large Language Models)を評価するための新しいベンチマークであるGraphTMIも提示されている。
論文 参考訳(メタデータ) (2023-11-16T12:45:41Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - MMGA: Multimodal Learning with Graph Alignment [8.349066399479938]
本稿では,グラフ(ソーシャルネットワーク)や画像,テキストなどの情報をソーシャルメディアに組み込むための,新しいマルチモーダル事前学習フレームワークMMGAを提案する。
MMGAでは,画像とテキストエンコーダを最適化するために,多段階のグラフアライメント機構が提案されている。
われわれのデータセットは、グラフ付き初のソーシャルメディアマルチモーダルデータセットであり、将来の研究を促進するために200万の投稿に基づいて特定のトピックをラベル付けした6万人のユーザーからなる。
論文 参考訳(メタデータ) (2022-10-18T15:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。