論文の概要: Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study
- arxiv url: http://arxiv.org/abs/2409.13694v3
- Date: Sun, 16 Feb 2025 11:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:07:05.793986
- Title: Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study
- Title(参考訳): 検索機能強化ジェネレーションのためのマルチソース知識プランニング : ベンチマークと実証的研究
- Authors: Shuo Yu, Mingyue Cheng, Jiqian Yang, Jie Ouyang, Yucong Luo, Chenyi Lei, Qi Liu, Enhong Chen,
- Abstract要約: 大規模言語モデル(LLM)の幻覚を緩和するための効果的なアプローチとして,検索拡張世代(RAG)がますます認識されている。
PruningRAGはマルチグラニュラリティ・プルーニング・ストラテジーを用いて,関連コンテキストをより効果的に統合し,誤った情報に対するネガティブな影響を軽減するためのプラグアンドプレイRAGフレームワークである。
- 参考スコア(独自算出の注目度): 46.55831783809377
- License:
- Abstract: Retrieval-augmented generation (RAG) is increasingly recognized as an effective approach to mitigating the hallucination of large language models (LLMs) through the integration of external knowledge. While numerous efforts, most studies focus on a single type of external knowledge source. In contrast, most real-world applications involve diverse knowledge from various sources, a scenario that has been relatively underexplored. The main dilemma is the lack of a suitable dataset incorporating multiple knowledge sources and pre-exploration of the associated issues. To address these challenges, we standardize a benchmark dataset that combines structured and unstructured knowledge across diverse and complementary domains. Building upon the dataset, we identify the limitations of existing methods under such conditions. Therefore, we develop PruningRAG, a plug-and-play RAG framework that uses multi-granularity pruning strategies to more effectively incorporate relevant context and mitigate the negative impact of misleading information. Extensive experimental results demonstrate superior performance of PruningRAG and our insightful findings are also reported. Our dataset and code are publicly available\footnote{https://github.com/USTCAGI/PruningRAG}.
- Abstract(参考訳): 大規模言語モデル(LLM)の幻覚を和らげるための効果的なアプローチとして、検索拡張世代(RAG)は、外部知識の統合によってますます認識されている。
多くの努力にもかかわらず、ほとんどの研究は単一の種類の外部知識ソースに焦点を当てている。
対照的に、現実世界のほとんどのアプリケーションは様々な情報源からの多様な知識を含んでいる。
主なジレンマは、複数の知識ソースを組み込んだ適切なデータセットの欠如と関連する問題の事前探索である。
これらの課題に対処するため、さまざまな補完ドメインにまたがる構造化知識と非構造化知識を組み合わせたベンチマークデータセットを標準化しました。
データセットに基づいて、そのような条件下で既存のメソッドの制限を識別する。
そこで我々はPruningRAGを開発した。PruningRAGはマルチグラニュラリティ・プルーニング・ストラテジーを用いて,関連コンテキストをより効果的に活用し,誤った情報に対するネガティブな影響を軽減するための,プラグアンドプレイのRAGフレームワークである。
PruningRAGの著明な評価結果が得られた。
私たちのデータセットとコードは公開されている。footnote{https://github.com/USTCAGI/PruningRAG}。
関連論文リスト
- Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG) は、外部の動的情報を統合することで問題を緩和する。
クロスモーダルアライメントと推論はMultimodal RAGに固有の課題をもたらし、従来の単調なRAGと区別する。
この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文 参考訳(メタデータ) (2025-02-12T22:33:41Z) - CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - Contextual Compression in Retrieval-Augmented Generation for Large Language Models: A Survey [0.0]
大きな言語モデル(LLM)は目覚ましい能力を示すが、幻覚、時代遅れの知識、不透明さ、説明不能な推論といった制限に悩まされている。
Retrieval-Augmented Generation (RAG)は、外部データベースを活用して生成されたコンテンツの一貫性と一貫性を改善することで、実行可能なソリューションであることが証明されている。
論文 参考訳(メタデータ) (2024-09-20T10:36:49Z) - DomainRAG: A Chinese Benchmark for Evaluating Domain-specific Retrieval-Augmented Generation [19.907074685082]
Retrieval-Augmented Generationは、大規模言語モデルの様々な制限に対処する有望なソリューションを提供する。
現在の研究は、しばしばウィキペディアのような一般的な知識ソースを使って、常識的な問題を解決するモデルの能力を評価している。
対話型RAGの能力を含むRAGモデルに必要な6つの能力を特定した。
論文 参考訳(メタデータ) (2024-06-09T05:33:51Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA)
我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。
オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。