論文の概要: Rendering Graphs for Graph Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2402.02130v3
- Date: Mon, 26 Feb 2024 07:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:42:37.120234
- Title: Rendering Graphs for Graph Reasoning in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおけるグラフ推論のためのレンダリンググラフ
- Authors: Yanbin Wei, Shuai Fu, Weisen Jiang, James T. Kwok, Yu Zhang
- Abstract要約: 本稿では,視覚情報をグラフ推論タスクに組み込む第一歩として,新しいベンチマークGITQAを提案する。
我々は、最先端のマルチモーダルLLMを用いて、GITQAベンチマークで広範な実験を行う。
その結果,テキスト情報と視覚情報の組み合わせは,一つのモダリティを単独で使用するよりも優れていた。
- 参考スコア(独自算出の注目度): 25.787348071391595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used for various tasks with
graph structures, such as robotic planning, knowledge graph completion, and
common-sense reasoning. Though LLMs can comprehend graph information in a
textual format, they overlook the rich visual modality, which is an intuitive
way for humans to comprehend structural information and conduct graph
reasoning. The potential benefits and capabilities of representing graph
structures as visual images (i.e., visual graph) is still unexplored. In this
paper, we take the first step in incorporating visual information into graph
reasoning tasks and propose a new benchmark GITQA, where each sample is a tuple
(graph, image, textual description). We conduct extensive experiments on the
GITQA benchmark using state-of-the-art multimodal LLMs. Results on graph
reasoning tasks show that combining textual and visual information together
performs better than using one modality alone. Moreover, the LLaVA-7B/13B
models finetuned on the training set (referred to as GITA), achieve higher
accuracy than the closed-source model GPT-4(V). We also study the effects of
augmentations in graph reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ロボット計画、知識グラフ補完、常識推論など、グラフ構造を扱う様々なタスクにますます使われている。
LLMは、グラフ情報をテキスト形式で理解することができるが、そのリッチな視覚的モダリティは、人間が構造情報を理解し、グラフ推論を行うための直感的な方法である。
グラフ構造を視覚的イメージ(すなわちビジュアルグラフ)として表現する潜在的な利点と能力はまだ探索されていない。
本稿では,視覚情報をグラフ推論タスクに組み込む第一歩として,各サンプルをタプル(グラフ,画像,テキスト記述)とする新しいベンチマークGITQAを提案する。
我々は、最先端のマルチモーダルLLMを用いて、GITQAベンチマークで広範な実験を行う。
グラフ推論タスクの結果から,テキスト情報と視覚情報の組み合わせは,1つのモダリティのみを使用するよりも優れていた。
さらに、トレーニングセットに微調整されたLLaVA-7B/13Bモデル(GITA)は、クローズドソースモデルGPT-4(V)よりも精度が高い。
また,グラフ推論における拡張の効果についても検討した。
関連論文リスト
- GUNDAM: Aligning Large Language Models with Graph Understanding [10.080136100700692]
textbfGraph textbfUnderstanding for textbfNatural Language textbfDriven textbfAnalytical textbfModel (model)を紹介する。
このモデルは、グラフデータの構造をよりよく理解し、関与するようにLLMを適用し、グラフの構造自体を活用することで複雑な推論タスクを実行できる。
論文 参考訳(メタデータ) (2024-09-30T07:59:10Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - GraphInstruct: Empowering Large Language Models with Graph Understanding and Reasoning Capability [28.713449421717193]
大規模言語モデル(LLM)のグラフ理解能力の評価と向上を行う。
本稿では,21の古典的グラフ推論タスクを含むGraphInstructというベンチマークを提案する。
我々は,グラフ理解能力の顕著な向上を示す効率的な命令チューニングにより,GraphLMを構築する。
論文 参考訳(メタデータ) (2024-03-07T13:36:08Z) - LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。
LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。
実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-13T02:03:26Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - GraphText: Graph Reasoning in Text Space [32.00258972022153]
GraphTextはグラフを自然言語に変換するフレームワークである。
GraphTextは、教師付きトレーニングされたグラフニューラルネットワークのパフォーマンスに匹敵する、あるいは超えることができる。
インタラクティブなグラフ推論の道を開くことで、人間とLLMの両方が自然言語を使ってシームレスにモデルと通信できるようになる。
論文 参考訳(メタデータ) (2023-10-02T11:03:57Z) - Bringing Your Own View: Graph Contrastive Learning without Prefabricated
Data Augmentations [94.41860307845812]
Self-supervisionは最近、グラフ学習の新しいフロンティアに力を入れている。
GraphCLは、グラフデータ拡張のアドホックな手作業による選択によって反映されたプレハブ付きプリファブリックを使用する。
グラフ生成器のパラメータ空間における学習可能な連続前処理へと拡張した。
我々は、情報最小化(InfoMin)と情報ボトルネック(InfoBN)の2つの原則を利用して、学習した事前情報を規則化する。
論文 参考訳(メタデータ) (2022-01-04T15:49:18Z) - Data Augmentation View on Graph Convolutional Network and the Proposal
of Monte Carlo Graph Learning [51.03995934179918]
従来の理解よりも透明性の高いデータ拡張を導入します。
そこで我々はモンテカルログラフ学習(MCGL)という新しいグラフ学習パラダイムを提案する。
MCGLの耐雑音性は、ノイズグラフ上のGCNよりも弱いことを示す。
論文 参考訳(メタデータ) (2020-06-23T15:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。