論文の概要: DIRAS: Efficient LLM Annotation of Document Relevance in Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2406.14162v2
- Date: Tue, 15 Oct 2024 11:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:20.014229
- Title: DIRAS: Efficient LLM Annotation of Document Relevance in Retrieval Augmented Generation
- Title(参考訳): DIRAS:Retrieval Augmented Generationにおける文書関連の効率的なLCMアノテーション
- Authors: Jingwei Ni, Tobias Schimanski, Meihong Lin, Mrinmaya Sachan, Elliott Ash, Markus Leippold,
- Abstract要約: ドメイン固有のクエリは通常、浅いセマンティックな関連性を超えて、関連性のニュアンス定義を必要とする。
人間またはGPT-4アノテーションは費用がかかり、全ての(クエリ、ドキュメント)ペアをカバーできない。
DIRAS (Domain-specific Information Retrieval with Scalability) は手動アノテーションのないスキーマである。
- 参考スコア(独自算出の注目度): 37.823892101215684
- License:
- Abstract: Retrieval Augmented Generation (RAG) is widely employed to ground responses to queries on domain-specific documents. But do RAG implementations leave out important information when answering queries that need an integrated analysis of information (e.g., Tell me good news in the stock market today.)? To address these concerns, RAG developers need to annotate information retrieval (IR) data for their domain of interest, which is challenging because (1) domain-specific queries usually need nuanced definitions of relevance beyond shallow semantic relevance; and (2) human or GPT-4 annotation is costly and cannot cover all (query, document) pairs (i.e., annotation selection bias), thus harming the effectiveness in evaluating IR recall. To address these challenges, we propose DIRAS (Domain-specific Information Retrieval Annotation with Scalability), a manual-annotation-free schema that fine-tunes open-sourced LLMs to consider nuanced relevance definition and annotate (partial) relevance labels with calibrated relevance scores. Extensive evaluation shows that DIRAS enables smaller (8B) LLMs to achieve GPT-4-level performance on annotating and ranking unseen (query, document) pairs, and is helpful for real-world RAG development. All code, LLM generations, and human annotations can be found in \url{https://github.com/EdisonNi-hku/DIRAS}.
- Abstract(参考訳): Retrieval Augmented Generation (RAG) はドメイン固有のドキュメントのクエリに対する応答を基盤として広く使われている。
しかし、RAGの実装は、情報の統合分析を必要とするクエリ(例えば、今日の株式市場で良いニュースを教えてくれる)に答えるときに重要な情報を残しているだろうか?
これらの懸念に対処するために、RAG開発者は、情報検索(IR)データを関心のある領域にアノテートする必要がある。なぜなら、(1)ドメイン固有のクエリは通常、浅いセマンティックな関連性以上の関連性のニュアンス定義を必要とするからであり、(2)人間またはGPT-4アノテーションはコストが高く、すべての(クエリ、ドキュメント)ペア(つまり、アノテーションの選択バイアス)をカバーできないため、IRリコールの評価の有効性を損なうからである。
DIRAS(Domain-specific Information Retrieval Annotation with Scalability)は,Nuanced Relevance Definition と Annotate Relevance labels with calibrated Relevance scores (partial) Relevance labels with calibrated Relevance scores, LLMs to consider nuanced Relevance definition and annotate (partial) Relevance labels with calibrated Relevance scores。
拡張評価の結果, DIRAS はより小さい (8B) LLM で, 注釈付き (クエリ, ドキュメント) ペアのアノテートおよびランク付けにおいて GPT-4 レベルの性能を実現し, 実世界の RAG 開発に有効であることが示唆された。
すべてのコード、LLM世代、人間のアノテーションは \url{https://github.com/EdisonNi-hku/DIRAS} で見ることができる。
関連論文リスト
- Evaluation of RAG Metrics for Question Answering in the Telecom Domain [0.650923326742559]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)が質問応答(QA)タスクを実行できるようにするために広く使われている。
この作業は、いくつかの指標(事実性、文脈関連性、回答関連性、回答正当性、回答類似性、事実正当性)に対して修正されたこのパッケージで、プロンプトの中間出力を提供する。
次に、修正されたRAGASパッケージの出力のエキスパート評価を分析し、通信領域で使用する際の課題を観察する。
論文 参考訳(メタデータ) (2024-07-15T17:40:15Z) - RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems [0.0]
Retrieval-Augmented Generation (RAG)は、ユーザ向けチャットアプリケーションにおけるドメイン固有の知識の標準的なアーキテクチャパターンとなっている。
RAGBenchは、100kのサンプルからなる、最初の包括的な大規模RAGベンチマークデータセットである。
TRACe評価フレームワークは、すべてのRAGドメインに適用可能な説明可能かつ実行可能なRAG評価指標のセットである。
論文 参考訳(メタデータ) (2024-06-25T20:23:15Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。