論文の概要: Engineering RAG Systems for Real-World Applications: Design, Development, and Evaluation
- arxiv url: http://arxiv.org/abs/2506.20869v1
- Date: Wed, 25 Jun 2025 22:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.90634
- Title: Engineering RAG Systems for Real-World Applications: Design, Development, and Evaluation
- Title(参考訳): 実世界のアプリケーションのための工学的RAGシステム:設計・開発・評価
- Authors: Md Toufique Hasan, Muhammad Waseem, Kai-Kristian Kemell, Ayman Asad Khan, Mika Saari, Pekka Abrahamsson,
- Abstract要約: 大規模言語モデル(LLM)を外部知識に基盤付けるための重要なアプローチとして,検索-拡張生成(RAG)システムが登場している。
本稿では,ガバナンス,サイバーセキュリティ,農業,産業研究,医療診断の5つの領域固有のRAGアプリケーションについて述べる。
- 参考スコア(独自算出の注目度): 4.448709087838503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems are emerging as a key approach for grounding Large Language Models (LLMs) in external knowledge, addressing limitations in factual accuracy and contextual relevance. However, there is a lack of empirical studies that report on the development of RAG-based implementations grounded in real-world use cases, evaluated through general user involvement, and accompanied by systematic documentation of lessons learned. This paper presents five domain-specific RAG applications developed for real-world scenarios across governance, cybersecurity, agriculture, industrial research, and medical diagnostics. Each system incorporates multilingual OCR, semantic retrieval via vector embeddings, and domain-adapted LLMs, deployed through local servers or cloud APIs to meet distinct user needs. A web-based evaluation involving a total of 100 participants assessed the systems across six dimensions: (i) Ease of Use, (ii) Relevance, (iii) Transparency, (iv) Responsiveness, (v) Accuracy, and (vi) Likelihood of Recommendation. Based on user feedback and our development experience, we documented twelve key lessons learned, highlighting technical, operational, and ethical challenges affecting the reliability and usability of RAG systems in practice.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、外部知識におけるLarge Language Models (LLM) の基盤となる重要なアプローチとして登場し、現実の精度と文脈的関連性の限界に対処している。
しかし、実世界のユースケースに根ざしたRAGベースの実装の開発、一般ユーザ関与による評価、学習した教訓の体系的な文書化など、実証研究の欠如がある。
本稿では,ガバナンス,サイバーセキュリティ,農業,産業研究,医療診断の5つの領域固有のRAGアプリケーションについて述べる。
各システムには多言語OCR、ベクトル埋め込みによるセマンティック検索、ローカルサーバやクラウドAPIを通じて展開されるドメイン適応LLMが組み込まれている。
参加者100名による Web ベースの評価では,6次元にわたるシステムの評価を行った。
(i)使いやすさ
(二)関連性
(三)透明性
(四)応答性
(v)正確性、及び
(vi)勧告の好意
ユーザからのフィードバックと開発経験に基づいて、実際にRAGシステムの信頼性とユーザビリティに影響を及ぼす技術的、運用的、倫理的な課題を強調した12の重要な教訓を文書化した。
関連論文リスト
- Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey [29.186229489968564]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) と外部情報検索を統合し、自然言語処理に革命をもたらした。
RAGシステムの評価は、検索と生成コンポーネントを組み合わせたハイブリッドアーキテクチャのため、ユニークな課題を示す。
論文 参考訳(メタデータ) (2025-04-21T06:39:47Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - A Methodology for Evaluating RAG Systems: A Case Study On Configuration Dependency Validation [6.544757635738911]
Retrieval-augmented Generation(RAG)は、異なるコンポーネント、設計決定、ドメイン固有の適応の傘である。
現在、RAG評価の方法論は一般に受け入れられていないが、この技術への関心は高まりつつある。
本稿では,RAGシステムの健全かつ信頼性の高い評価手法の最初の青写真を提案する。
論文 参考訳(メタデータ) (2024-10-11T13:36:13Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - VERA: Validation and Evaluation of Retrieval-Augmented Systems [5.709401805125129]
VERAは、大規模言語モデル(LLM)からの出力の透明性と信頼性を高めるために設計されたフレームワークである。
VERAが意思決定プロセスを強化し、AIアプリケーションへの信頼を高める方法を示す。
論文 参考訳(メタデータ) (2024-08-16T21:59:59Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。