論文の概要: How Significant Are the Real Performance Gains? An Unbiased Evaluation Framework for GraphRAG
- arxiv url: http://arxiv.org/abs/2506.06331v1
- Date: Sat, 31 May 2025 03:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.185129
- Title: How Significant Are the Real Performance Gains? An Unbiased Evaluation Framework for GraphRAG
- Title(参考訳): 実際のパフォーマンス向上はどの程度重要か? GraphRAGの非バイアス評価フレームワーク
- Authors: Qiming Zeng, Xiao Yan, Hao Luo, Yuhao Lin, Yuxiang Wang, Fangcheng Fu, Bo Du, Quanqing Xu, Jiawei Jiang,
- Abstract要約: GraphRAG(Graph-based search-augmented generation)は,大規模言語モデル(LLM)を拡張し,ユーザの質問に対する質の高い回答を生成する。
GraphRAGの現在の回答評価フレームワークには、2つの重大な欠陥、すなわち無関係な質問と評価バイアスがある。
本稿では,グラフテキストによる質問生成を用いて,基礎となるデータセットに関する質問を生成する非バイアス評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.99675849017066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By retrieving contexts from knowledge graphs, graph-based retrieval-augmented generation (GraphRAG) enhances large language models (LLMs) to generate quality answers for user questions. Many GraphRAG methods have been proposed and reported inspiring performance in answer quality. However, we observe that the current answer evaluation framework for GraphRAG has two critical flaws, i.e., unrelated questions and evaluation biases, which may lead to biased or even wrong conclusions on performance. To tackle the two flaws, we propose an unbiased evaluation framework that uses graph-text-grounded question generation to produce questions that are more related to the underlying dataset and an unbiased evaluation procedure to eliminate the biases in LLM-based answer assessment. We apply our unbiased framework to evaluate 3 representative GraphRAG methods and find that their performance gains are much more moderate than reported previously. Although our evaluation framework may still have flaws, it calls for scientific evaluations to lay solid foundations for GraphRAG research.
- Abstract(参考訳): 知識グラフからコンテキストを検索することで、グラフベースの検索拡張生成(GraphRAG)は、大きな言語モデル(LLM)を強化し、ユーザの質問に対する質の高い回答を生成する。
多くのGraphRAG手法が提案され、回答の品質向上に寄与している。
しかし、現在のGraphRAGの回答評価フレームワークには、無関係な質問と評価バイアスという2つの重大な欠陥がある。
この2つの欠陥に対処するために,グラフテキストによる質問生成を用いて,基礎となるデータセットとより関連性の高い質問を生成するアンバイアスド評価フレームワークと,LCMに基づく回答評価におけるバイアスを排除するアンバイアスド評価手順を提案する。
3つの代表的なGraphRAG手法を評価するために、我々の非バイアスのフレームワークを適用し、その性能向上が以前報告したよりも遥かに緩やかであることを示す。
評価フレームワークにはまだ欠陥があるかもしれないが、科学的な評価がGraphRAG研究の基盤となることを要求している。
関連論文リスト
- When to use Graphs in RAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation [25.508719115522645]
グラフ検索強化世代(GraphRAG)は、外部知識で大規模言語モデル(LLM)を拡張するための強力なパラダイムとして登場した。
最近の研究では、GraphRAGは多くの現実世界のタスクにおいてバニラRAGを過小評価している。
GraphRAGは本当に有効か、グラフ構造がRAGシステムに測定可能なメリットを提供するシナリオは存在するのか?
論文 参考訳(メタデータ) (2025-06-06T02:37:47Z) - GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation [26.654064783342545]
Graph Retrieval Augmented Generation (GraphRAG) は,大規模言語モデル(LLM)の拡張の可能性に対する認識を高めている。
GraphRAGモデルの現在の評価は、主に従来の問合せデータセットに依存している。
GraphRAGモデルを厳格に評価するために設計された大規模ドメイン固有ベンチマークであるGraphRAG-Benchを紹介する。
論文 参考訳(メタデータ) (2025-06-03T03:44:26Z) - RAG vs. GraphRAG: A Systematic Evaluation and Key Insights [42.31801859160484]
我々は,テキストベースベンチマークを用いて,検索型拡張生成(RAG)とグラフRAGを体系的に評価する。
本結果は,RAGとGraphRAGの異なる課題と評価の観点から,それぞれ異なる強みを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-02-17T02:36:30Z) - LEGO-GraphRAG: Modularizing Graph-based Retrieval-Augmented Generation for Design Space Exploration [17.514586423233872]
LEGO-GraphRAGは,GraphRAGワークフローのきめ細かい分解を可能にするモジュール型フレームワークである。
本フレームワークは,大規模実世界のグラフと多様なクエリセット上でのグラフRAGの総合的研究を促進する。
論文 参考訳(メタデータ) (2024-11-06T15:32:28Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。
我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward
Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T01:47:56Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。