論文の概要: Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models
- arxiv url: http://arxiv.org/abs/2311.09862v2
- Date: Wed, 13 Mar 2024 23:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:12:48.821666
- Title: Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models
- Title(参考訳): テキスト, モチーフ, 画像のどのモダリティを使うべきか : 大規模言語モデルを用いたグラフの理解
- Authors: Debarati Das, Ishaan Gupta, Jaideep Srivastava, Dongyeop Kang,
- Abstract要約: 本稿では,テキスト,画像,モチーフなどの多様性を持つグラフを符号化する新たな手法を提案する。
また、グラフ構造解析において、LLM(Large Language Models)を評価するための新しいベンチマークであるGraphTMIも提示されている。
- 参考スコア(独自算出の注目度): 14.251972223585765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our research integrates graph data with Large Language Models (LLMs), which, despite their advancements in various fields using large text corpora, face limitations in encoding entire graphs due to context size constraints. This paper introduces a new approach to encoding a graph with diverse modalities, such as text, image, and motif, coupled with prompts to approximate a graph's global connectivity, thereby enhancing LLMs' efficiency in processing complex graph structures. The study also presents GraphTMI, a novel benchmark for evaluating LLMs in graph structure analysis, focusing on homophily, motif presence, and graph difficulty. Key findings indicate that the image modality, especially with vision-language models like GPT-4V, is superior to text in balancing token limits and preserving essential information and outperforms prior graph neural net (GNN) encoders. Furthermore, the research assesses how various factors affect the performance of each encoding modality and outlines the existing challenges and potential future developments for LLMs in graph understanding and reasoning tasks. All data will be publicly available upon acceptance.
- Abstract(参考訳): 本研究は,グラフデータとLarge Language Models (LLMs)を統合し,大規模テキストコーパスを用いた様々な分野での進歩にもかかわらず,コンテキストサイズ制約によりグラフ全体を符号化する際の制限に直面している。
本稿では,テキスト,画像,モチーフなどの多様性を持つグラフを符号化する新たな手法を提案する。
この研究では、グラフ構造解析においてLLMを評価するための新しいベンチマークであるGraphTMIも提示され、ホモフィリー、モチーフ存在、グラフの難しさに焦点を当てている。
重要な発見は、特にGPT-4Vのような視覚言語モデルでは、画像のモダリティがトークン制限のバランスをとり、必須情報を保存し、先行グラフニューラルネット(GNN)エンコーダよりも優れていることを示している。
さらに, 様々な要因が各符号化モダリティの性能に与える影響を評価し, グラフ理解・推論タスクにおけるLCMの課題と今後の展開について概説する。
すべてのデータは受理時に公開されます。
関連論文リスト
- LLaGA: Large Language and Graph Assistant [79.09010152231164]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。
LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。
実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-13T02:03:26Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
本手法は,テキスト応答とグラフの関連部分をハイライトする。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding
and Reasoning [54.84870836443311]
本稿では,画像エンコーディングとマルチモーダル技術を統合することで,グラフデータの理解と推論を行う新しいパラダイムを提案する。
このアプローチは, GPT-4Vの高度な機能を利用して, 命令応答形式によるグラフデータの理解を可能にする。
研究は、このパラダイムを様々なグラフタイプで評価し、特に中国のOCRパフォーマンスと複雑な推論タスクにおいて、モデルの強みと弱みを強調した。
論文 参考訳(メタデータ) (2023-12-16T08:14:11Z) - Large Language Models on Graphs: A Comprehensive Survey [81.7684686396014]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [28.20142151965313]
本稿では,大規模言語モデルとグラフ構造知識を整合させるGraphGPTフレームワークを提案する。
また,ライトウェイトなグラフテキストアライメントプロジェクタを伴って,2段階の命令チューニングパラダイムを提案する。
本フレームワークは,教師付きおよびゼロショットグラフ学習タスクで評価され,より優れた一般化と最先端のベースラインを実現している。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - Talk like a Graph: Encoding Graphs for Large Language Models [15.652881653332194]
大規模言語モデル(LLM)による消費用テキストとしてグラフ構造化データを符号化する最初の包括的研究について検討する。
グラフ解析におけるLCMの性能は,(1)グラフ符号化法,(2)グラフ処理自体の性質,(3)興味深いことに,考慮されたグラフの構造の3つの基本レベルによって異なることを示す。
論文 参考訳(メタデータ) (2023-10-06T19:55:21Z) - GPT4Graph: Can Large Language Models Understand Graph Structured Data ?
An Empirical Evaluation and Benchmarking [17.7473474499538]
ChatGPTのような大規模言語モデルは、人工知能にとって欠かせないものとなっている。
本研究では,グラフデータの解釈において,LLMの精度を評価するための調査を行う。
この知見は,言語モデルとグラフ理解のギャップを埋めるための貴重な洞察に寄与する。
論文 参考訳(メタデータ) (2023-05-24T11:53:19Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。