論文の概要: Scaling Graph Chain-of-Thought Reasoning: A Multi-Agent Framework with Efficient LLM Serving
- arxiv url: http://arxiv.org/abs/2511.01633v1
- Date: Mon, 03 Nov 2025 14:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.299076
- Title: Scaling Graph Chain-of-Thought Reasoning: A Multi-Agent Framework with Efficient LLM Serving
- Title(参考訳): Graph Chain-of-Thought Reasoningのスケーリング - 効率的なLLM実行を備えたマルチエージェントフレームワーク
- Authors: Chengying Huan, Ziheng Meng, Yongchao Liu, Zhengyi Yang, Yun Zhu, Yue Yun, Shipeng Li, Rong Gu, Xiabao Wu, Haitao Zhang, Chuntao Hong, Shaonan Ma, Guihai Chen, Chen Tian,
- Abstract要約: Graph Chain-of-Thought (Graph-CoT)は、グラフ構造化知識に対してステップバイステップの推論を行う大きな言語モデル(LLM)を可能にする。
既存のパイプラインは、低い正確性、過剰なトークン使用、高いレイテンシ、低いスループットに悩まされている。
GLMはマルチエージェントグラフ-CoTシステムであり、最適化されたLLMサービスアーキテクチャで設計されている。
- 参考スコア(独自算出の注目度): 38.059017394879284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Chain-of-Thought (Graph-CoT) enables large language models (LLMs) to perform step-by-step reasoning over graph-structured knowledge, but existing pipelines suffer from low accuracy, excessive token usage, high latency, and low throughput due to single-agent monolithic prompts, repeated context re-encoding, and inefficient serving execution. We present GLM, the first multi-agent Graph-CoT system co-designed with an optimized LLM serving architecture. GLM decomposes reasoning into specialized agents for classification, reasoning, action generation, and graph retrieval, enabling branching and selective context sharing to reduce prompt length and reasoning iterations while preserving reasoning quality, thereby improving accuracy and reducing overall token consumption. To scale inference, we introduce a Graph-CoT-aware LLM inference mechanism with graph-specific KV-cache management, priority-based eviction, and pipelined execution to improve serving efficiency. Experiments demonstrate that GLM improves answer accuracy by up to 38%, reduces token cost by up to 95.7%, lowers inference latency by 90.3%, and achieves up to 15.1x higher throughput compared to state-of-the-art Graph-CoT baselines, enabling efficient adoption for complex real-world reasoning at scale.
- Abstract(参考訳): Graph Chain-of-Thought(Graph-CoT)は、グラフ構造化知識をステップバイステップで推論する大規模言語モデル(LLM)を可能にするが、既存のパイプラインでは、単一エージェントのモノリシックプロンプトによる低正確、過剰なトークン使用、高レイテンシ、低スループット、反復的コンテキスト再エンコーディング、実行効率の低下などが問題となっている。
GLMはマルチエージェントグラフ-CoTシステムであり、最適化されたLLMサービスアーキテクチャで設計されている。
GLMは、分類、推論、行動生成、グラフ検索のための特殊エージェントに推論を分解し、分岐と選択的なコンテキスト共有を可能にし、推論品質を維持しながら、迅速な長さと推論のイテレーションを削減し、精度を向上し、全体的なトークン消費を減らす。
提案手法では,グラフ固有のKVキャッシュ管理,優先度に基づく消去,パイプライン実行などを備えたグラフCoT対応LLM推論機構を導入し,サービス効率を向上する。
実験によると、GLMは回答精度を最大38%改善し、トークンコストを最大95.7%削減し、推論遅延を90.3%削減し、最先端のGraph-CoTベースラインに比べて最大15.1倍高いスループットを実現している。
関連論文リスト
- GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Enrich-on-Graph: Query-Graph Alignment for Complex Reasoning with LLM Enriching [61.824094419641575]
大言語モデル(LLM)は知識グラフ質問応答(KGQA)のような知識集約的なシナリオにおける幻覚と事実的誤りに苦しむ
これは、構造化知識グラフ(KG)と非構造化クエリのセマンティックギャップによるもので、その焦点や構造に固有の違いが原因である。
既存の手法は通常、バニラKGの資源集約的で非スケーリング可能な推論を用いるが、このギャップを見落としている。
我々は、LLMの事前知識を活用してKGを充実させる柔軟なフレームワークEnrich-on-Graph(EoG)を提案し、グラフとクエリ間のセマンティックギャップを埋める。
論文 参考訳(メタデータ) (2025-09-25T06:48:52Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Zero-shot Graph Reasoning via Retrieval Augmented Framework with LLMs [15.558119182035995]
検索型拡張フレームワーク(GRRAF)を用いた新しい学習不要なグラフ推論手法を提案する。
GRRAFは、大規模な言語モデル(LLM)のコード生成機能とともに、検索拡張生成(RAG)を活用して、幅広いグラフ推論タスクに対処する。
GraphInstructデータセットの実験的評価により、ほとんどのグラフ推論タスクにおいて、GRRAFが100%の精度を達成することが明らかになった。
論文 参考訳(メタデータ) (2025-09-16T06:58:58Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Scalability Matters: Overcoming Challenges in InstructGLM with Similarity-Degree-Based Sampling [1.2805157669888096]
提案するSDM-InstructGLMは,GNNに依存することなく,拡張性と効率を向上する命令調整グラフ言語モデル(InstructGLM)フレームワークである。
本手法では,ノード間類似度と次数集中度に基づいてグラフ情報を選択的にサンプリングし,符号化する,類似度に基づくバイアス付きランダムウォーク機構を提案する。
本結果は,LLMのみのグラフ処理の実現可能性を示し,命令ベースの微調整によって最適化されたスケーラブルかつ解釈可能なグラフ言語モデル(GLM)を実現する。
論文 参考訳(メタデータ) (2025-05-02T06:08:21Z) - Simple Is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。
本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。
提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文 参考訳(メタデータ) (2024-10-28T04:39:32Z) - Scalable and Accurate Graph Reasoning with LLM-based Multi-Agents [27.4884498301785]
GraphAgent-Reasonerは、明示的で正確なグラフ推論のための微調整不要なフレームワークである。
分散グラフ計算理論にインスパイアされた我々のフレームワークは、グラフ問題を複数のエージェント間で分散される小さなノード中心のタスクに分解する。
本フレームワークは,Webページ重要度分析などの実世界のグラフ推論アプリケーションを扱う能力を示す。
論文 参考訳(メタデータ) (2024-10-07T15:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。