論文の概要: Rendering Graphs for Graph Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2402.02130v3
- Date: Mon, 26 Feb 2024 07:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:42:37.120234
- Title: Rendering Graphs for Graph Reasoning in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおけるグラフ推論のためのレンダリンググラフ
- Authors: Yanbin Wei, Shuai Fu, Weisen Jiang, James T. Kwok, Yu Zhang
- Abstract要約: 本稿では,視覚情報をグラフ推論タスクに組み込む第一歩として,新しいベンチマークGITQAを提案する。
我々は、最先端のマルチモーダルLLMを用いて、GITQAベンチマークで広範な実験を行う。
その結果,テキスト情報と視覚情報の組み合わせは,一つのモダリティを単独で使用するよりも優れていた。
- 参考スコア(独自算出の注目度): 25.787348071391595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used for various tasks with
graph structures, such as robotic planning, knowledge graph completion, and
common-sense reasoning. Though LLMs can comprehend graph information in a
textual format, they overlook the rich visual modality, which is an intuitive
way for humans to comprehend structural information and conduct graph
reasoning. The potential benefits and capabilities of representing graph
structures as visual images (i.e., visual graph) is still unexplored. In this
paper, we take the first step in incorporating visual information into graph
reasoning tasks and propose a new benchmark GITQA, where each sample is a tuple
(graph, image, textual description). We conduct extensive experiments on the
GITQA benchmark using state-of-the-art multimodal LLMs. Results on graph
reasoning tasks show that combining textual and visual information together
performs better than using one modality alone. Moreover, the LLaVA-7B/13B
models finetuned on the training set (referred to as GITA), achieve higher
accuracy than the closed-source model GPT-4(V). We also study the effects of
augmentations in graph reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ロボット計画、知識グラフ補完、常識推論など、グラフ構造を扱う様々なタスクにますます使われている。
LLMは、グラフ情報をテキスト形式で理解することができるが、そのリッチな視覚的モダリティは、人間が構造情報を理解し、グラフ推論を行うための直感的な方法である。
グラフ構造を視覚的イメージ(すなわちビジュアルグラフ)として表現する潜在的な利点と能力はまだ探索されていない。
本稿では,視覚情報をグラフ推論タスクに組み込む第一歩として,各サンプルをタプル(グラフ,画像,テキスト記述)とする新しいベンチマークGITQAを提案する。
我々は、最先端のマルチモーダルLLMを用いて、GITQAベンチマークで広範な実験を行う。
グラフ推論タスクの結果から,テキスト情報と視覚情報の組み合わせは,1つのモダリティのみを使用するよりも優れていた。
さらに、トレーニングセットに微調整されたLLaVA-7B/13Bモデル(GITA)は、クローズドソースモデルGPT-4(V)よりも精度が高い。
また,グラフ推論における拡張の効果についても検討した。
関連論文リスト
- GraphInstruct: Empowering Large Language Models with Graph Understanding
and Reasoning Capability [39.357609062052205]
大規模言語モデル(LLM)のグラフ理解能力の評価と向上を行う。
本稿では,21の古典的グラフ推論タスクを含むGraphInstructというベンチマークを提案する。
我々は,グラフ理解能力の顕著な向上を示す効率的な命令チューニングにより,GraphLMを構築する。
論文 参考訳(メタデータ) (2024-03-07T13:36:08Z) - LLaGA: Large Language and Graph Assistant [79.09010152231164]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。
LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。
実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-13T02:03:26Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
本手法は,テキスト応答とグラフの関連部分をハイライトする。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding
and Reasoning [54.84870836443311]
本稿では,画像エンコーディングとマルチモーダル技術を統合することで,グラフデータの理解と推論を行う新しいパラダイムを提案する。
このアプローチは, GPT-4Vの高度な機能を利用して, 命令応答形式によるグラフデータの理解を可能にする。
研究は、このパラダイムを様々なグラフタイプで評価し、特に中国のOCRパフォーマンスと複雑な推論タスクにおいて、モデルの強みと弱みを強調した。
論文 参考訳(メタデータ) (2023-12-16T08:14:11Z) - Large Language Models on Graphs: A Comprehensive Survey [81.7684686396014]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [28.20142151965313]
本稿では,大規模言語モデルとグラフ構造知識を整合させるGraphGPTフレームワークを提案する。
また,ライトウェイトなグラフテキストアライメントプロジェクタを伴って,2段階の命令チューニングパラダイムを提案する。
本フレームワークは,教師付きおよびゼロショットグラフ学習タスクで評価され,より優れた一般化と最先端のベースラインを実現している。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - One for All: Towards Training One Graph Model for All Classification
Tasks [64.74879508476636]
様々なグラフタスクの統一モデルは、主にグラフ学習領域に固有の課題のために、まだ探索されていない。
上記の課題に対処するために単一のグラフモデルを使用できる最初の汎用フレームワークである textbfOne for All (OFA) を提案する。
OFAは様々なタスクでうまく機能し、グラフ上の最初の汎用のクロスドメイン分類モデルとなる。
論文 参考訳(メタデータ) (2023-09-29T21:15:26Z) - GPT4Graph: Can Large Language Models Understand Graph Structured Data ?
An Empirical Evaluation and Benchmarking [17.7473474499538]
ChatGPTのような大規模言語モデルは、人工知能にとって欠かせないものとなっている。
本研究では,グラフデータの解釈において,LLMの精度を評価するための調査を行う。
この知見は,言語モデルとグラフ理解のギャップを埋めるための貴重な洞察に寄与する。
論文 参考訳(メタデータ) (2023-05-24T11:53:19Z) - Graph-ToolFormer: To Empower LLMs with Graph Reasoning Ability via
Prompt Augmented by ChatGPT [10.879701971582502]
我々は,複雑なグラフデータに対する推論能力を備えた大規模言語モデル(LLM)の開発を目指している。
最新のChatGPTおよびToolformerモデルに触発された我々は、外部グラフ推論APIツールを使用するために、ChatGPTによって強化されたプロンプトでLLM自体を教えるためのGraph-ToolFormerフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:25:54Z) - GraphOpt: Learning Optimization Models of Graph Formation [72.75384705298303]
本稿では,グラフ構造形成の暗黙的モデルを学ぶエンドツーエンドフレームワークを提案し,その基盤となる最適化機構を明らかにする。
学習した目的は、観測されたグラフプロパティの説明として機能し、ドメイン内の異なるグラフを渡すために自分自身を貸すことができる。
GraphOptは、グラフ内のリンク生成をシーケンシャルな意思決定プロセスとして、最大エントロピー逆強化学習アルゴリズムを用いて解決する。
論文 参考訳(メタデータ) (2020-07-07T16:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。