論文の概要: GITA: Graph to Visual and Textual Integration for Vision-Language Graph Reasoning
- arxiv url: http://arxiv.org/abs/2402.02130v5
- Date: Thu, 31 Oct 2024 12:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:58:04.537570
- Title: GITA: Graph to Visual and Textual Integration for Vision-Language Graph Reasoning
- Title(参考訳): GITA:ビジョンランゲージグラフ推論のためのビジュアルとテキストの統合
- Authors: Yanbin Wei, Shuai Fu, Weisen Jiang, Zejian Zhang, Zhixiong Zeng, Qi Wu, James T. Kwok, Yu Zhang,
- Abstract要約: 我々は、$textbfG$raph to v$textbfI$sual and $textbfT$extual Integr$textbfA$tion (GITA)というエンドツーエンドフレームワークを提案する。
GITAはまず、ビジュアルグラフを一般的なグラフ推論に組み込む。
GVLQAデータセットと5つの実世界のデータセットの実験は、GITAが一般的なグラフ推論能力において、メインストリームのLLMよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 30.23658922980425
- License:
- Abstract: Large Language Models (LLMs) are increasingly used for various tasks with graph structures. Though LLMs can process graph information in a textual format, they overlook the rich vision modality, which is an intuitive way for humans to comprehend structural information and conduct general graph reasoning. The potential benefits and capabilities of representing graph structures as visual images (i.e., $\textit{visual graph}$) are still unexplored. To fill the gap, we innovatively propose an end-to-end framework, called $\textbf{G}$raph to v$\textbf{I}$sual and $\textbf{T}$extual Integr$\textbf{A}$tion (GITA), which firstly incorporates visual graphs into general graph reasoning. Besides, we establish $\textbf{G}$raph-based $\textbf{V}$ision-$\textbf{L}$anguage $\textbf{Q}$uestion $\textbf{A}$nswering (GVLQA) dataset from existing graph data, which is the first vision-language dataset for general graph reasoning purposes. Extensive experiments on the GVLQA dataset and five real-world datasets show that GITA outperforms mainstream LLMs in terms of general graph reasoning capabilities. Moreover, We highlight the effectiveness of the layout augmentation on visual graphs and pretraining on the GVLQA dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)は、グラフ構造を持つ様々なタスクにますます使われています。
LLMは、グラフ情報をテキスト形式で処理できるが、リッチビジョンのモダリティは、人間が構造情報を理解し、一般的なグラフ推論を行うための直感的な方法である。
グラフ構造をビジュアルイメージとして表現する潜在的な利点と能力(例えば$\textit{visual graph}$)はまだ探索されていない。
このギャップを埋めるために、我々は、$\textbf{G}$raph to v$\textbf{I}$sual and $\textbf{T}$extual Integr$\textbf{A}$tion (GITA) と呼ばれるエンドツーエンドのフレームワークを革新的に提案する。
さらに、既存のグラフデータから得られるデータセットである$\textbf{G}$raph-based $\textbf{V}$ision-$\textbf{L}$anguage $\textbf{Q}$uestion $\textbf{A}$nswering (GVLQA)を確立する。
GVLQAデータセットと5つの実世界のデータセットに関する大規模な実験は、GITAが一般的なグラフ推論能力において、メインストリームのLLMよりも優れていることを示している。
さらに、レイアウト拡張が視覚グラフに与える影響とGVLQAデータセットの事前学習を強調した。
関連論文リスト
- GUNDAM: Aligning Large Language Models with Graph Understanding [10.080136100700692]
textbfGraph textbfUnderstanding for textbfNatural Language textbfDriven textbfAnalytical textbfModel (model)を紹介する。
このモデルは、グラフデータの構造をよりよく理解し、関与するようにLLMを適用し、グラフの構造自体を活用することで複雑な推論タスクを実行できる。
論文 参考訳(メタデータ) (2024-09-30T07:59:10Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - GraphInstruct: Empowering Large Language Models with Graph Understanding and Reasoning Capability [28.713449421717193]
大規模言語モデル(LLM)のグラフ理解能力の評価と向上を行う。
本稿では,21の古典的グラフ推論タスクを含むGraphInstructというベンチマークを提案する。
我々は,グラフ理解能力の顕著な向上を示す効率的な命令チューニングにより,GraphLMを構築する。
論文 参考訳(メタデータ) (2024-03-07T13:36:08Z) - LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。
LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。
実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-13T02:03:26Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - GraphText: Graph Reasoning in Text Space [32.00258972022153]
GraphTextはグラフを自然言語に変換するフレームワークである。
GraphTextは、教師付きトレーニングされたグラフニューラルネットワークのパフォーマンスに匹敵する、あるいは超えることができる。
インタラクティブなグラフ推論の道を開くことで、人間とLLMの両方が自然言語を使ってシームレスにモデルと通信できるようになる。
論文 参考訳(メタデータ) (2023-10-02T11:03:57Z) - Bringing Your Own View: Graph Contrastive Learning without Prefabricated
Data Augmentations [94.41860307845812]
Self-supervisionは最近、グラフ学習の新しいフロンティアに力を入れている。
GraphCLは、グラフデータ拡張のアドホックな手作業による選択によって反映されたプレハブ付きプリファブリックを使用する。
グラフ生成器のパラメータ空間における学習可能な連続前処理へと拡張した。
我々は、情報最小化(InfoMin)と情報ボトルネック(InfoBN)の2つの原則を利用して、学習した事前情報を規則化する。
論文 参考訳(メタデータ) (2022-01-04T15:49:18Z) - Data Augmentation View on Graph Convolutional Network and the Proposal
of Monte Carlo Graph Learning [51.03995934179918]
従来の理解よりも透明性の高いデータ拡張を導入します。
そこで我々はモンテカルログラフ学習(MCGL)という新しいグラフ学習パラダイムを提案する。
MCGLの耐雑音性は、ノイズグラフ上のGCNよりも弱いことを示す。
論文 参考訳(メタデータ) (2020-06-23T15:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。