論文の概要: Enhancing Q&A Text Retrieval with Ranking Models: Benchmarking, fine-tuning and deploying Rerankers for RAG
- arxiv url: http://arxiv.org/abs/2409.07691v1
- Date: Thu, 12 Sep 2024 01:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 18:02:00.620604
- Title: Enhancing Q&A Text Retrieval with Ranking Models: Benchmarking, fine-tuning and deploying Rerankers for RAG
- Title(参考訳): ランキングモデルによるQ&Aテキスト検索の強化: RAGのベンチマーク、微調整、デプロイ
- Authors: Gabriel de Souza P. Moreira, Ronay Ak, Benedikt Schifferer, Mengyao Xu, Radek Osmulski, Even Oldridge,
- Abstract要約: 本稿では、様々な公開ランキングモデルをベンチマークし、ランキング精度への影響について検討する。
本稿では,質問応答タスクのテキスト検索に焦点をあてる。これはRetrieval-Augmented Generationシステムにおける一般的なユースケースである。
我々は,現在最先端のランキングモデルであるNV-RerankQA-Mistral-4B-v3を導入する。
- 参考スコア(独自算出の注目度): 1.8448587047759064
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ranking models play a crucial role in enhancing overall accuracy of text retrieval systems. These multi-stage systems typically utilize either dense embedding models or sparse lexical indices to retrieve relevant passages based on a given query, followed by ranking models that refine the ordering of the candidate passages by its relevance to the query. This paper benchmarks various publicly available ranking models and examines their impact on ranking accuracy. We focus on text retrieval for question-answering tasks, a common use case for Retrieval-Augmented Generation systems. Our evaluation benchmarks include models some of which are commercially viable for industrial applications. We introduce a state-of-the-art ranking model, NV-RerankQA-Mistral-4B-v3, which achieves a significant accuracy increase of ~14% compared to pipelines with other rerankers. We also provide an ablation study comparing the fine-tuning of ranking models with different sizes, losses and self-attention mechanisms. Finally, we discuss challenges of text retrieval pipelines with ranking models in real-world industry applications, in particular the trade-offs among model size, ranking accuracy and system requirements like indexing and serving latency / throughput.
- Abstract(参考訳): ランキングモデルは、テキスト検索システムの全体的な精度を高める上で重要な役割を果たす。
これらのマルチステージシステムは、通常、あるクエリに基づいて関連するパスを検索するために、密度の高い埋め込みモデルまたはスパースレキシカルインデックスのいずれかを使用し、次いで、クエリとの関連性によって候補パスの順序を洗練させるランキングモデルを使用する。
本稿では、様々な公開ランキングモデルをベンチマークし、ランキング精度への影響について検討する。
本稿では,質問応答タスクのテキスト検索に焦点をあてる。これはRetrieval-Augmented Generationシステムにおける一般的なユースケースである。
評価ベンチマークには、いくつかのモデルが含まれており、そのうちのいくつかは産業用途で商業的に有効である。
我々は,現在最先端のランキングモデルであるNV-RerankQA-Mistral-4B-v3を導入する。
また,異なるサイズ,損失,自己注意機構を有するランキングモデルの微調整を比較検討した。
最後に、実業界アプリケーションにおけるランキングモデルを用いたテキスト検索パイプラインの課題、特にモデルサイズ、ランキング精度、インデックス化やレイテンシ/スループットの提供といったシステム要件のトレードオフについて論じる。
関連論文リスト
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Quam: Adaptive Retrieval through Query Affinity Modelling [15.3583908068962]
ユーザ情報要求に基づいて文書をランク付けする関連モデルを構築することは,情報検索とNLPコミュニティの中心的な課題である。
提案するQuamにより,適応検索の初期段階の統一的な視点を提案する。
提案手法であるQuamは,リコール性能を26%向上させる。
論文 参考訳(メタデータ) (2024-10-26T22:52:12Z) - Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract) [73.57710917145212]
ランク付け学習は、入力クエリに基づいて関連するWebページを優先順位付けするために、Web検索で広く使われている。
本稿では,これらの課題に対処するために,経験的 UlineSemi-uline Supervised ulinePre-trained (GS2P) モデルを提案する。
我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。
論文 参考訳(メタデータ) (2024-09-25T03:39:14Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition
via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning [0.20999222360659603]
NoRefERは、自動音声認識(ASR)システムのための新しい基準のない品質指標である。
NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。
以上の結果から,NoRefERは基準ベースメトリクスとそのサンプル内ランクと高い相関性を示し,基準のないASR評価やa/bテストの可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T21:26:19Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To
Benchmark [14.50261153230204]
M3C(Multimodal Machine Reading)に注目し、与えられた文節(または文脈)に基づいてモデルが質問に答えることを期待する。
大規模深層モデルの問合せ生成過程と暗記能力から生じる3つの臨界バイアスを同定する。
3つの制御ノブを通してこれらのバイアスに対処するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-22T16:33:57Z) - Modeling Relevance Ranking under the Pre-training and Fine-tuning
Paradigm [44.96049217770624]
本稿では,ユーザのビューとシステムビューの両方を考慮した,Pre-Rankという新しいランキングフレームワークを提案する。
ユーザの関連性のビューをモデル化するために、Pre-Rankは、大規模なユーザアクティビティデータに基づいて、初期クエリドキュメント表現を事前トレーニングする。
システムの関連性に関する見解をモデル化するために、Pre-Rankはエキスパートラベルの関連データに基づいてモデルをさらに微調整する。
論文 参考訳(メタデータ) (2021-08-12T10:37:12Z) - Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。
解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。
一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文 参考訳(メタデータ) (2020-05-06T01:51:30Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。