Fugu-MT 論文翻訳(概要): Rendering Graphs for Graph Reasoning in Multimodal Large Language Models

論文の概要: Rendering Graphs for Graph Reasoning in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2402.02130v3
Date: Mon, 26 Feb 2024 07:33:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 21:42:37.120234
Title: Rendering Graphs for Graph Reasoning in Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルにおけるグラフ推論のためのレンダリンググラフ
Authors: Yanbin Wei, Shuai Fu, Weisen Jiang, James T. Kwok, Yu Zhang
Abstract要約: 本稿では,視覚情報をグラフ推論タスクに組み込む第一歩として,新しいベンチマークGITQAを提案する。我々は、最先端のマルチモーダルLLMを用いて、GITQAベンチマークで広範な実験を行う。その結果,テキスト情報と視覚情報の組み合わせは,一つのモダリティを単独で使用するよりも優れていた。
参考スコア（独自算出の注目度）: 25.787348071391595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are increasingly used for various tasks with graph structures, such as robotic planning, knowledge graph completion, and common-sense reasoning. Though LLMs can comprehend graph information in a textual format, they overlook the rich visual modality, which is an intuitive way for humans to comprehend structural information and conduct graph reasoning. The potential benefits and capabilities of representing graph structures as visual images (i.e., visual graph) is still unexplored. In this paper, we take the first step in incorporating visual information into graph reasoning tasks and propose a new benchmark GITQA, where each sample is a tuple (graph, image, textual description). We conduct extensive experiments on the GITQA benchmark using state-of-the-art multimodal LLMs. Results on graph reasoning tasks show that combining textual and visual information together performs better than using one modality alone. Moreover, the LLaVA-7B/13B models finetuned on the training set (referred to as GITA), achieve higher accuracy than the closed-source model GPT-4(V). We also study the effects of augmentations in graph reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ロボット計画、知識グラフ補完、常識推論など、グラフ構造を扱う様々なタスクにますます使われている。 LLMは、グラフ情報をテキスト形式で理解することができるが、そのリッチな視覚的モダリティは、人間が構造情報を理解し、グラフ推論を行うための直感的な方法である。グラフ構造を視覚的イメージ(すなわちビジュアルグラフ)として表現する潜在的な利点と能力はまだ探索されていない。本稿では,視覚情報をグラフ推論タスクに組み込む第一歩として,各サンプルをタプル(グラフ,画像,テキスト記述)とする新しいベンチマークGITQAを提案する。我々は、最先端のマルチモーダルLLMを用いて、GITQAベンチマークで広範な実験を行う。グラフ推論タスクの結果から,テキスト情報と視覚情報の組み合わせは,1つのモダリティのみを使用するよりも優れていた。さらに、トレーニングセットに微調整されたLLaVA-7B/13Bモデル(GITA)は、クローズドソースモデルGPT-4(V)よりも精度が高い。また,グラフ推論における拡張の効果についても検討した。

関連論文リスト

LLM as GNN: Graph Vocabulary Learning for Text-Attributed Graph Foundation Models [54.82915844507371]
Text-Attributed Graphs (TAG) は、現実のシナリオにおいてユビキタスである。大規模言語モデル(LLMs)とグラフニューラルネットワーク(GNNs)をTAGsに統合する努力にもかかわらず、既存のアプローチは分離されたアーキテクチャに悩まされている。本稿では,グラフ語彙学習に基づくTAGのための汎用GFMであるPromptGFMを提案する。
論文参考訳（メタデータ） (2025-03-05T09:45:22Z)
What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文参考訳（メタデータ） (2024-10-16T00:01:31Z)
GUNDAM: Aligning Large Language Models with Graph Understanding [10.080136100700692]
textbfGraph textbfUnderstanding for textbfNatural Language textbfDriven textbfAnalytical textbfModel (model)を紹介する。このモデルは、グラフデータの構造をよりよく理解し、関与するようにLLMを適用し、グラフの構造自体を活用することで複雑な推論タスクを実行できる。
論文参考訳（メタデータ） (2024-09-30T07:59:10Z)
GraphInsight: Unlocking Insights in Large Language Models for Graph Structure Understanding [17.724492441325165]
大規模言語モデル(LLM)は、グラフ記述シーケンスのプロンプトを通じてグラフィカルな構造情報を理解するのに苦労する。マクロおよびマイクロレベルのグラフィカル情報に対するLLMの理解を改善するための新しいフレームワークであるGraphInsightを提案する。
論文参考訳（メタデータ） (2024-09-05T05:34:16Z)
Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-10T15:41:53Z)
GraphInstruct: Empowering Large Language Models with Graph Understanding and Reasoning Capability [28.713449421717193]
大規模言語モデル(LLM)のグラフ理解能力の評価と向上を行う。本稿では,21の古典的グラフ推論タスクを含むGraphInstructというベンチマークを提案する。我々は,グラフ理解能力の顕著な向上を示す効率的な命令チューニングにより,GraphLMを構築する。
論文参考訳（メタデータ） (2024-03-07T13:36:08Z)
LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。 LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文参考訳（メタデータ） (2024-02-13T02:03:26Z)
G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。 G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文参考訳（メタデータ） (2024-02-12T13:13:04Z)
Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文参考訳（メタデータ） (2023-12-05T14:14:27Z)
GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文参考訳（メタデータ） (2023-10-19T06:17:46Z)
GraphText: Graph Reasoning in Text Space [32.00258972022153]
GraphTextはグラフを自然言語に変換するフレームワークである。 GraphTextは、教師付きトレーニングされたグラフニューラルネットワークのパフォーマンスに匹敵する、あるいは超えることができる。インタラクティブなグラフ推論の道を開くことで、人間とLLMの両方が自然言語を使ってシームレスにモデルと通信できるようになる。
論文参考訳（メタデータ） (2023-10-02T11:03:57Z)
Graph-ToolFormer: To Empower LLMs with Graph Reasoning Ability via Prompt Augmented by ChatGPT [10.879701971582502]
我々は,複雑なグラフデータに対する推論能力を備えた大規模言語モデル(LLM)の開発を目指している。最新のChatGPTおよびToolformerモデルに触発された我々は、外部グラフ推論APIツールを使用するために、ChatGPTによって強化されたプロンプトでLLM自体を教えるためのGraph-ToolFormerフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-10T05:25:54Z)
Bringing Your Own View: Graph Contrastive Learning without Prefabricated Data Augmentations [94.41860307845812]
Self-supervisionは最近、グラフ学習の新しいフロンティアに力を入れている。 GraphCLは、グラフデータ拡張のアドホックな手作業による選択によって反映されたプレハブ付きプリファブリックを使用する。グラフ生成器のパラメータ空間における学習可能な連続前処理へと拡張した。我々は、情報最小化(InfoMin)と情報ボトルネック(InfoBN)の2つの原則を利用して、学習した事前情報を規則化する。
論文参考訳（メタデータ） (2022-01-04T15:49:18Z)
Data Augmentation View on Graph Convolutional Network and the Proposal of Monte Carlo Graph Learning [51.03995934179918]
従来の理解よりも透明性の高いデータ拡張を導入します。そこで我々はモンテカルログラフ学習(MCGL)という新しいグラフ学習パラダイムを提案する。 MCGLの耐雑音性は、ノイズグラフ上のGCNよりも弱いことを示す。
論文参考訳（メタデータ） (2020-06-23T15:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。