論文の概要: Constructing and Evaluating Declarative RAG Pipelines in PyTerrier
- arxiv url: http://arxiv.org/abs/2506.10802v1
- Date: Thu, 12 Jun 2025 15:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.809948
- Title: Constructing and Evaluating Declarative RAG Pipelines in PyTerrier
- Title(参考訳): PyTerrierにおける宣言型RAGパイプラインの構築と評価
- Authors: Craig Macdonald, Jinyuan Fang, Andrew Parry, Zaiqiao Meng,
- Abstract要約: Retrieval augmented generation (RAG)はパイプラインアーキテクチャのエキサイティングな応用である。
PyTerrierのPyTerrier-RAG拡張は、標準的なRAGデータセットへのアクセスを容易にします。
我々は、最先端のスパース、学習されたスパース、そして密集したレトリバーで、より大きなPyTerrierエコシステムを構築する方法を示します。
- 参考スコア(独自算出の注目度): 27.90584159600631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search engines often follow a pipeline architecture, where complex but effective reranking components are used to refine the results of an initial retrieval. Retrieval augmented generation (RAG) is an exciting application of the pipeline architecture, where the final component generates a coherent answer for the users from the retrieved documents. In this demo paper, we describe how such RAG pipelines can be formulated in the declarative PyTerrier architecture, and the advantages of doing so. Our PyTerrier-RAG extension for PyTerrier provides easy access to standard RAG datasets and evaluation measures, state-of-the-art LLM readers, and using PyTerrier's unique operator notation, easy-to-build pipelines. We demonstrate the succinctness of indexing and RAG pipelines on standard datasets (including Natural Questions) and how to build on the larger PyTerrier ecosystem with state-of-the-art sparse, learned-sparse, and dense retrievers, and other neural rankers.
- Abstract(参考訳): 検索エンジンはしばしばパイプラインアーキテクチャに従い、複雑なが効果的なリグレードコンポーネントを使用して初期検索の結果を洗練させる。
Retrieval augmented generation (RAG)はパイプラインアーキテクチャのエキサイティングな応用であり、最終コンポーネントは検索したドキュメントからユーザに対して一貫性のある回答を生成する。
本稿では,これらのRAGパイプラインを宣言型PyTerrierアーキテクチャで定式化する方法と,その利点について述べる。
PyTerrierのPyTerrier-RAG拡張は、標準的なRAGデータセットや評価指標、最先端のLLMリーダ、PyTerrierのユニークな演算子表記、簡単にビルドできるパイプラインなどへのアクセスを容易にします。
我々は、標準的なデータセット(Nature Questionsを含む)上のインデックス付けとRAGパイプラインの簡潔さと、最先端のスパース、学習スパース、高密度レトリバー、その他のニューラルランサーを用いて、より大きなPyTerrierエコシステムを構築する方法を示す。
関連論文リスト
- RAG Without the Lag: Interactive Debugging for Retrieval-Augmented Generation Pipelines [1.5741300187949614]
Retrieval-augmented Generation (RAG)パイプラインは、外部のドメイン固有の知識にアクセス可能なAIアシスタントを構築するためのデファクトなアプローチになっている。
RAGGYは,構成可能なRAGプリミティブのPythonライブラリと,リアルタイムデバッグのためのインタラクティブインターフェースを組み合わせたツールである。
論文 参考訳(メタデータ) (2025-04-18T09:38:49Z) - Rankify: A Comprehensive Python Toolkit for Retrieval, Re-Ranking, and Retrieval-Augmented Generation [15.31883349259767]
Rankifyはオープンソースのツールキットで、検索、再ランク付け、RAGをコヒーシブなフレームワーク内で統一するように設計されている。
厳密でスパースなリトリーバーを含む幅広い検索技術をサポートし、最先端のリグレードモデルも備えている。
Rankifyには、Huggingfaceで利用可能なベンチマークを容易にするために、検索済みのデータセットのコレクションが含まれている。
論文 参考訳(メタデータ) (2025-02-04T16:33:25Z) - Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z) - Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:30:51Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - torchgfn: A PyTorch GFlowNet library [56.071033896777784]
torchgfnはPyTorchライブラリで、このニーズに対処することを目指している。
環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。
論文 参考訳(メタデータ) (2023-05-24T00:20:59Z) - Towards Personalized Preprocessing Pipeline Search [52.59156206880384]
ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。
本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。
ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T05:45:05Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z) - TODS: An Automated Time Series Outlier Detection System [70.88663649631857]
TODSは,パイプライン構築を容易にする,高度にモジュール化されたシステムである。
Todsはデータ処理、時系列処理、特徴分析、検出アルゴリズム、強化モジュールを含む70のプリミティブをサポートしている。
論文 参考訳(メタデータ) (2020-09-18T15:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。