論文の概要: Evaluating the Performance of RAG Methods for Conversational AI in the Airport Domain
- arxiv url: http://arxiv.org/abs/2505.13006v1
- Date: Mon, 19 May 2025 11:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.567939
- Title: Evaluating the Performance of RAG Methods for Conversational AI in the Airport Domain
- Title(参考訳): 空港領域における会話型AIのためのRAG手法の性能評価
- Authors: Yuyang Li, Philip J. M. Kerbusch, Raimon H. R. Pruim, Tobias Käfer,
- Abstract要約: 空港のスタッフが飛行情報システムとコミュニケーションできる会話型AIシステムを実装した。
このシステムは、空港の標準的な問い合わせに答えるだけでなく、空港の用語、用語、略語、推論に関する動的問題も解決する。
- 参考スコア(独自算出の注目度): 1.2415665766474302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Airports from the top 20 in terms of annual passengers are highly dynamic environments with thousands of flights daily, and they aim to increase the degree of automation. To contribute to this, we implemented a Conversational AI system that enables staff in an airport to communicate with flight information systems. This system not only answers standard airport queries but also resolves airport terminology, jargon, abbreviations, and dynamic questions involving reasoning. In this paper, we built three different Retrieval-Augmented Generation (RAG) methods, including traditional RAG, SQL RAG, and Knowledge Graph-based RAG (Graph RAG). Experiments showed that traditional RAG achieved 84.84% accuracy using BM25 + GPT-4 but occasionally produced hallucinations, which is risky to airport safety. In contrast, SQL RAG and Graph RAG achieved 80.85% and 91.49% accuracy respectively, with significantly fewer hallucinations. Moreover, Graph RAG was especially effective for questions that involved reasoning. Based on our observations, we thus recommend SQL RAG and Graph RAG are better for airport environments, due to fewer hallucinations and the ability to handle dynamic questions.
- Abstract(参考訳): 年間旅客数のトップ20の空港は、毎日数千便の便がある非常にダイナミックな環境であり、自動化の度合いを高めることを目指している。
そこで我々は,空港のスタッフが飛行情報システムとコミュニケーションできる会話型AIシステムを構築した。
このシステムは、空港の標準的な問い合わせに答えるだけでなく、空港の用語、用語、略語、推論に関する動的問題も解決する。
本稿では,従来のRAG,SQL RAG,知識グラフに基づくRAG(Graph RAG)など,3種類のRAG(Retrieval-Augmented Generation)手法を構築した。
実験の結果、従来のRAGは BM25 + GPT-4 を用いて84.84%の精度を達成したが、時折幻覚を発生させた。
対照的に、SQL RAGとGraph RAGはそれぞれ80.85%と91.49%の精度を達成し、幻覚は大幅に減少した。
さらに、グラフRAGは推論に関わる質問に対して特に有効であった。
そこで本研究では, 空港環境に対するSQL RAGとGraph RAGの活用を推奨する。
関連論文リスト
- Beyond Single Pass, Looping Through Time: KG-IRAG with Iterative Knowledge Retrieval [18.96570718233786]
GraphRAGは、外部知識を必要とするタスクにおいて、LLM(Large Language Models)の性能を高めるのに非常に効果的であることが証明されている。
本稿では,KGと反復推論を統合する新しいフレームワークである知識グラフに基づく反復検索生成(KG-IRAG)を提案する。
KG-IRAGのパフォーマンスを評価するために、3つの新しいデータセットが作成され、従来のRAGアプリケーションを超える可能性を示している。
論文 参考訳(メタデータ) (2025-03-18T13:11:43Z) - HawkBench: Investigating Resilience of RAG Methods on Stratified Information-Seeking Tasks [50.871243190126826]
HawkBenchは、RAGのパフォーマンスを厳格に評価するために設計された、人間ラベル付きマルチドメインベンチマークである。
情報探索行動に基づくタスクの階層化により、HawkBenchはRAGシステムが多様なユーザニーズにどのように適応するかを体系的に評価する。
論文 参考訳(メタデータ) (2025-02-19T06:33:39Z) - Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:30:51Z) - RAGProbe: An Automated Approach for Evaluating RAG Applications [1.38012307221604]
Retrieval Augmented Generation (RAG)は、ジェネレーティブAIアプリケーションを構築する際にますます利用されている。
本稿では,RAGパイプラインの故障を誘発する質問応答ペアのバリエーションを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T23:33:07Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z) - The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。
我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文 参考訳(メタデータ) (2024-01-15T18:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。