論文の概要: A Knowledge Graph and a Tripartite Evaluation Framework Make Retrieval-Augmented Generation Scalable and Transparent
- arxiv url: http://arxiv.org/abs/2509.19209v1
- Date: Tue, 23 Sep 2025 16:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.950346
- Title: A Knowledge Graph and a Tripartite Evaluation Framework Make Retrieval-Augmented Generation Scalable and Transparent
- Title(参考訳): 知識グラフと三部評価フレームワークは、検索に拡張された世代をスケーラブルで透明にする
- Authors: Olalekan K. Akindele, Bhupesh Kumar Mishra, Kenneth Y. Wertheim,
- Abstract要約: 本研究では,知識グラフとベクトル探索を用いて,文脈に富んだ応答を提供する検索型拡張生成(RAG)を提案する。
この研究の中心的な革新はRAG評価(RAG-Eval)の導入である。
RAG-Evalは、事実のギャップとクエリミスマッチを確実に検出し、高要求でデータ中心の環境への信頼を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have significantly enhanced conversational Artificial Intelligence(AI) chatbots; however, domain-specific accuracy and the avoidance of factual inconsistencies remain pressing challenges, particularly for large datasets. Designing an effective chatbot with appropriate methods and evaluating its effectiveness is among the challenges in this domain. This study presents a Retrieval Augmented Generation (RAG) chatbot that harnesses a knowledge graph and vector search retrieval to deliver precise, context-rich responses in an exemplary use case from over high-volume engineering project-related emails, thereby minimising the need for document chunking. A central innovation of this work is the introduction of RAG Evaluation (RAG-Eval), a novel chain-of-thought LLM-based tripartite evaluation framework specifically developed to assess RAG applications. This framework operates in parallel with the chatbot, jointly assessing the user's query, the retrieved document, and the generated response, enabling a holistic evaluation across multiple quality metrics like query relevance, factual accuracy, coverage, coherence and fluency. The resulting scoring system is provided directly to users as a confidence score (1 to 100%), enabling quick identification of possible misaligned or incomplete answers. This proposed approach promotes transparency and rapid verification by incorporating metadata email IDs, timestamps into responses. Experimental comparisons against BERTScore and G-EVAL for summarisation evaluation tasks confirm its effectiveness, and empirical analysis also shows RAG-Eval reliably detects factual gaps and query mismatches, thereby fostering trust in high demand, data centric environments. These findings highlight a scalable path for developing accurate, user-verifiable chatbots that bridge the gap between high-level conversational fluency and factual accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、会話型人工知能(AI)チャットボットを著しく強化しているが、ドメイン固有の正確さと事実的不整合の回避は、特に大規模なデータセットにおいて課題を迫っている。
適切な手法で効果的なチャットボットを設計し、その有効性を評価することが、この領域の課題である。
本研究では,知識グラフとベクトル探索を駆使して,高ボリュームなプロジェクト関連電子メールから実例のユースケースにおいて,高精度でコンテキストに富んだ応答を提示し,文書チャンキングの必要性を最小化する検索用チャットボットを提案する。
この研究の中心的な革新は、RAG評価(RAG-Eval)の導入である。
このフレームワークはチャットボットと並行して動作し、ユーザのクエリ、検索されたドキュメント、および生成されたレスポンスを共同で評価し、クエリの関連性、事実の正確性、カバレッジ、コヒーレンス、フルーエンスといった複数の品質指標に対する総合的な評価を可能にする。
結果のスコアシステムは、ユーザに直接信頼スコア(1〜100%)として提供され、不整合や不完全解の迅速な識別を可能にする。
提案手法は,メタデータメールID,タイムスタンプを応答に組み込むことにより,透明性と迅速な検証を促進する。
また, BERTScore と G-EVAL との比較実験により, その有効性を確認し, RAG-Eval が現実のギャップやクエリミスマッチを確実に検出し, 要求の高いデータ中心環境への信頼を育むことを示した。
これらの発見は、高いレベルの会話の流速と事実の正確さのギャップを埋める、正確でユーザ検証可能なチャットボットを開発するためのスケーラブルなパスを浮き彫りにしている。
関連論文リスト
- Structured Relevance Assessment for Robust Retrieval-Augmented Language Models [0.0]
本稿では,ALMのロバスト性を高める構造的妥当性評価フレームワークを提案する。
提案手法では,セマンティックマッチングとソース信頼性の両方を考慮した多次元スコアリングシステムを採用している。
予備評価では、幻覚率の大幅な低下と推論過程の透明性の向上が示されている。
論文 参考訳(メタデータ) (2025-07-28T19:20:04Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Semantic Tokens in Retrieval Augmented Generation [0.0]
本稿では,確率的RAGシステムと決定論的に検証可能な応答のギャップを埋めるための評価モジュールを導入した新しい比較RAGシステムを提案する。
このフレームワークは、高い精度と検証可能性を必要とする領域において、より信頼性が高くスケーラブルな質問応答アプリケーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T16:52:06Z) - DeepNote: Note-Centric Deep Retrieval-Augmented Generation [72.70046559930555]
Retrieval-Augmented Generation (RAG)は質問応答のための大規模言語モデル(LLM)における事実誤りと幻覚を緩和する
我々は、ノート中心の適応検索により、知識ソースの奥深くで堅牢な探索を実現する適応RAGフレームワークであるDeepNoteを開発した。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - VERA: Validation and Enhancement for Retrieval Augmented systems [0.0]
textbfValidation and textbfEnhancement for textbfRetrieval textbfAugmented system を提案する。
VERAは、外部検索が必要なかどうかを最初にチェックし、検索したコンテキストの関連性と冗長性を評価し、非必要情報の除去のために精査する評価器-既存のLCMを使用している。
論文 参考訳(メタデータ) (2024-09-18T16:10:47Z) - Evaluating ChatGPT on Nuclear Domain-Specific Data [0.0]
本稿では,大規模言語モデル(LLM)であるChatGPTの,高度に専門化された核データ分野におけるQ&Aタスクへの適用について検討する。
主な焦点は、キュレートされたテストデータセット上でのChatGPTのパフォーマンスの評価である。
LLMにRAGパイプラインを組み込むことにより, 性能の向上が図られた。
論文 参考訳(メタデータ) (2024-08-26T08:17:42Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Detecting Response Generation Not Requiring Factual Judgment [14.921007421043198]
本研究は, 事実正当性判定を必要としない文を予測するタスクが設定された対話応答において, 魅力と事実性を両立することを目的とした。
クラウドソーシングにより,ファクトチェック関連ラベル(DDFC)を付加したデータセットと対話データセットを作成し,このデータセットを用いて複数のモデルで分類タスクを行った。
分類精度が最も高いモデルでは、およそ88%の正確な分類結果が得られる。
論文 参考訳(メタデータ) (2024-06-14T04:03:24Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。