論文の概要: Optimizing RAG Pipelines for Arabic: A Systematic Analysis of Core Components
- arxiv url: http://arxiv.org/abs/2506.06339v1
- Date: Sun, 01 Jun 2025 00:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.192689
- Title: Optimizing RAG Pipelines for Arabic: A Systematic Analysis of Core Components
- Title(参考訳): アラビア語のためのRAGパイプラインの最適化:コアコンポーネントの体系的解析
- Authors: Jumana Alsubhi, Mohammad D. Alahmadi, Ahmed Alhusayni, Ibrahim Aldailami, Israa Hamdine, Ahmad Shabana, Yazeed Iskandar, Suhayb Khayyat,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、検索システムの精度と大規模言語モデルの流速を結合する強力なアーキテクチャとして登場した。
本研究では,最先端のRAGコンポーネントの包括的評価,チャンキング戦略,埋め込みモデル,リランカー,言語モデルなど,さまざまなアラビアデータセットの集合を包括的に比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a powerful architecture for combining the precision of retrieval systems with the fluency of large language models. While several studies have investigated RAG pipelines for high-resource languages, the optimization of RAG components for Arabic remains underexplored. This study presents a comprehensive empirical evaluation of state-of-the-art RAG components-including chunking strategies, embedding models, rerankers, and language models-across a diverse set of Arabic datasets. Using the RAGAS framework, we systematically compare performance across four core metrics: context precision, context recall, answer faithfulness, and answer relevancy. Our experiments demonstrate that sentence-aware chunking outperforms all other segmentation methods, while BGE-M3 and Multilingual-E5-large emerge as the most effective embedding models. The inclusion of a reranker (bge-reranker-v2-m3) significantly boosts faithfulness in complex datasets, and Aya-8B surpasses StableLM in generation quality. These findings provide critical insights for building high-quality Arabic RAG pipelines and offer practical guidelines for selecting optimal components across different document types.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、検索システムの精度と大規模言語モデルの流速を結合する強力なアーキテクチャとして登場した。
いくつかの研究が高リソース言語のためのRAGパイプラインを調査してきたが、アラビア語のためのRAGコンポーネントの最適化は未検討のままである。
本研究では,最先端のRAGコンポーネントの包括的評価,チャンキング戦略,埋め込みモデル,リランカー,言語モデルなど,さまざまなアラビアデータセットの集合を包括的に比較した。
RAGASフレームワークを使用して、コンテキスト精度、コンテキストリコール、回答忠実度、回答関連性という、4つのコアメトリクスのパフォーマンスを体系的に比較する。
BGE-M3とMultilingual-E5-largeは最も効果的な埋め込みモデルとして登場し,文認識のチャンキングが他のセグメンテーション手法よりも優れていることを示す。
リランカ(bge-reranker-v2-m3)の導入は、複雑なデータセットの忠実度を大幅に向上させ、Aya-8Bは世代品質でStableLMを上回っている。
これらの知見は、高品質なアラビアRAGパイプラインを構築する上で重要な洞察を与え、異なる文書タイプにまたがる最適なコンポーネントを選択するための実践的なガイドラインを提供する。
関連論文リスト
- CrosGrpsABS: Cross-Attention over Syntactic and Semantic Graphs for Aspect-Based Sentiment Analysis in a Low-Resource Language [0.5937476291232802]
Aspect-Based Sentiment Analysis (ABSA) は自然言語処理の基本的なタスクであり、テキストで表現された意見に対するきめ細かい洞察を提供する。
本研究は,構文グラフとセマンティックグラフ間の双方向の相互アテンションを活用し,アスペクトレベルの感情分類を強化する新しいハイブリッドフレームワークであるCrosGrpsABSを提案する。
低リソースのBengali ABSAデータセットと高リソースのSemEval 2014 Task 4データセットでCrosGrpsABSを評価した。
論文 参考訳(メタデータ) (2025-05-25T07:42:32Z) - Fine-Tuning Large Language Models and Evaluating Retrieval Methods for Improved Question Answering on Building Codes [0.0]
建築法典は、構造的整合性、防火、アクセシビリティを確保するために、建物の設計、建設、安全性の基準を確立する規則である。
主な課題は、大量のテキストをナビゲートすること、技術的言語を解釈すること、異なるセクションにまたがる関連する節を特定することである。
潜在的な解決策は、ビルドコードに基づいてユーザクエリに回答するQA(QA)システムを構築することである。
QAシステムを構築するための様々な方法のうち、RAG(Retrieval-Augmented Generation)のパフォーマンスは際立っている。
論文 参考訳(メタデータ) (2025-05-07T05:04:30Z) - Context-Guided Dynamic Retrieval for Improving Generation Quality in RAG Models [2.9687381456164004]
意味理解と知識スケジューリングの効率化を図るための状態認識型動的知識検索機構を提案する。
提案した構造は, GPT-4, GPT-4o, DeepSeek など,様々な大規模モデルで徹底的に評価されている。
このアプローチはまた、意味的あいまいさとマルチドキュメント融合を含むタスクにおいて、強い堅牢性と生成一貫性を示す。
論文 参考訳(メタデータ) (2025-04-28T02:50:45Z) - Advancing Retrieval-Augmented Generation for Persian: Development of Language Models, Comprehensive Benchmarks, and Best Practices for Optimization [0.0]
本研究は,ペルシャ固有のモデルを導入することにより,検索と生成の精度を向上させることを目的とする。
3つのデータセット(一般知識(PQuad)、科学的に専門化されたテキスト、組織報告)を使用して、これらのモデルを評価した。
MatinaSRobertaは以前の埋め込みよりも優れており、データセット間のコンテキスト関連性と検索精度に優れていた。
論文 参考訳(メタデータ) (2025-01-08T22:16:40Z) - RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation [8.377398103067508]
我々は、RAGのユースケースのための大規模言語モデルを拡張するためのオープンソースのフレームワークであるRAG Foundryを紹介します。
RAG Foundryはデータ生成、トレーニング、推論、評価を単一のワークフローに統合する。
多様なRAG構成を持つLlama-3およびPhi-3モデルを拡張し,微調整することで,フレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-08-05T15:16:24Z) - FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。
既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。
我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文 参考訳(メタデータ) (2024-05-22T12:12:40Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。