論文の概要: Rankify: A Comprehensive Python Toolkit for Retrieval, Re-Ranking, and Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2502.02464v3
- Date: Wed, 19 Feb 2025 22:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:25:49.501600
- Title: Rankify: A Comprehensive Python Toolkit for Retrieval, Re-Ranking, and Retrieval-Augmented Generation
- Title(参考訳): Rankify: Retrieval、Re-Ranking、Retrieval-Augmented Generationのための総合的なPythonツールキット
- Authors: Abdelrahman Abdallah, Bhawna Piryani, Jamshid Mozafari, Mohammed Ali, Adam Jatowt,
- Abstract要約: Rankifyはオープンソースのツールキットで、検索、再ランク付け、RAGをコヒーシブなフレームワーク内で統一するように設計されている。
厳密でスパースなリトリーバーを含む幅広い検索技術をサポートし、最先端のリグレードモデルも備えている。
Rankifyには、Huggingfaceで利用可能なベンチマークを容易にするために、検索済みのデータセットのコレクションが含まれている。
- 参考スコア(独自算出の注目度): 15.31883349259767
- License:
- Abstract: Retrieval, re-ranking, and retrieval-augmented generation (RAG) are critical components of modern applications in information retrieval, question answering, or knowledge-based text generation. However, existing solutions are often fragmented, lacking a unified framework that easily integrates these essential processes. The absence of a standardized implementation, coupled with the complexity of retrieval and re-ranking workflows, makes it challenging for researchers to compare and evaluate different approaches in a consistent environment. While existing toolkits such as Rerankers and RankLLM provide general-purpose reranking pipelines, they often lack the flexibility required for fine-grained experimentation and benchmarking. In response to these challenges, we introduce Rankify, a powerful and modular open-source toolkit designed to unify retrieval, re-ranking, and RAG within a cohesive framework. Rankify supports a wide range of retrieval techniques, including dense and sparse retrievers, while incorporating state-of-the-art re-ranking models to enhance retrieval quality. Additionally, Rankify includes a collection of pre-retrieved datasets to facilitate benchmarking, available at Huggingface (https://huggingface.co/datasets/abdoelsayed/reranking-datasets-light). To encourage adoption and ease of integration, we provide comprehensive documentation (http://rankify.readthedocs.io/), an open-source implementation on GitHub (https://github.com/DataScienceUIBK/rankify), and a PyPI package for easy installation (https://pypi.org/project/rankify/). As a unified and lightweight framework, Rankify allows researchers and practitioners to advance retrieval and re-ranking methodologies while ensuring consistency, scalability, and ease of use.
- Abstract(参考訳): 検索、再ランク付け、検索強化生成(RAG)は、情報検索、質問応答、知識ベースのテキスト生成において、現代の応用において重要な要素である。
しかし、既存のソリューションはしばしば断片化され、これらの本質的なプロセスを容易に統合する統一されたフレームワークが欠如しています。
標準化された実装がないことは、検索と再ランクワークフローの複雑さと相まって、研究者が一貫した環境で異なるアプローチを比較して評価することを困難にしている。
RerankersやRanLLMといった既存のツールキットは、汎用的なリランクパイプラインを提供するが、細かい実験やベンチマークに必要な柔軟性を欠いていることが多い。
これらの課題に対応するために,我々は,検索,再ランク付け,RAGを結合的なフレームワーク内で統一する,強力でモジュール化されたオープンソースツールキットであるRandifyを紹介した。
Rankifyは、高密度かつスパースな検索機能を含む幅広い検索技術をサポートし、検索品質を向上させるために最先端のリグレードモデルを導入している。
Rankifyには、Huggingface(https://huggingface.co/datasets/abdoelsayed/re ranking-datasets-light)で利用可能な、事前検索されたデータセットのコレクションが含まれている。
GitHub上のオープンソース実装(https://github.com/DataScienceUIBK/rankify)、インストールを簡単にするためのPyPIパッケージ(https://pypi.org/project/rankify/)を提供する。
Rankifyは統一的で軽量なフレームワークであり、研究者や実践者は、一貫性、スケーラビリティ、使いやすさを確保しながら、検索と再評価の方法論を前進させることができる。
関連論文リスト
- Real-time Indexing for Large-scale Recommendation by Streaming Vector Quantization Retriever [17.156348053402766]
Streaming Vector Quantization Modelは検索パラダイムの新しい世代である。
ストリームVQはインデックス付きのアイテムをリアルタイムでアタッチし、即時に付与する。
軽量で実装に優しいアーキテクチャとして、ストリーミングVQがデプロイされ、DouyinとDouyin Liteのすべてのメジャーレトリバーに置き換えられた。
論文 参考訳(メタデータ) (2025-01-15T10:09:15Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7069350303884]
xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。
xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。
実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:15:17Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - FeB4RAG: Evaluating Federated Search in the Context of Retrieval
Augmented Generation [31.371489527686578]
フェデレートされた検索システムは、複数の検索エンジンの検索結果を集約し、結果の品質を高め、ユーザの意図に合わせた適切なソースを選択する。
FEB4RAGはRAGフレームワーク内でのフェデレーション検索に特化した新しいデータセットである。
論文 参考訳(メタデータ) (2024-02-19T07:06:52Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - Hybrid and Collaborative Passage Reranking [144.83902343298112]
本稿では,HybRank(HybRank)手法を提案する。
スパースとシークエンスレトリバーの語彙的および意味的特性を組み込んで再ランク付けする。
HybRankは、既製のレトリバー機能をベースに構築されており、任意のパスリストを拡張できるプラグインリランカである。
論文 参考訳(メタデータ) (2023-05-16T09:38:52Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。