論文の概要: DIRAS: Efficient LLM-Assisted Annotation of Document Relevance in Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2406.14162v1
- Date: Thu, 20 Jun 2024 10:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:21:16.581230
- Title: DIRAS: Efficient LLM-Assisted Annotation of Document Relevance in Retrieval Augmented Generation
- Title(参考訳): DIRAS: 検索用拡張ジェネレーションにおける効率的なLCM支援文書関連アノテーション
- Authors: Jingwei Ni, Tobias Schimanski, Meihong Lin, Mrinmaya Sachan, Elliott Ash, Markus Leippold,
- Abstract要約: DIRAS (Domain-specific Information Retrieval sourceed with Scalability) を提案する。
DIRAS の微調整モデルでは,注釈付き (クエリ, ドキュメント) ペアに対して GPT-4 レベルの性能が得られることを示す。
- 参考スコア(独自算出の注目度): 37.823892101215684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval Augmented Generation (RAG) is widely employed to ground responses to queries on domain-specific documents. But do RAG implementations leave out important information or excessively include irrelevant information? To allay these concerns, it is necessary to annotate domain-specific benchmarks to evaluate information retrieval (IR) performance, as relevance definitions vary across queries and domains. Furthermore, such benchmarks should be cost-efficiently annotated to avoid annotation selection bias. In this paper, we propose DIRAS (Domain-specific Information Retrieval Annotation with Scalability), a manual-annotation-free schema that fine-tunes open-sourced LLMs to annotate relevance labels with calibrated relevance probabilities. Extensive evaluation shows that DIRAS fine-tuned models achieve GPT-4-level performance on annotating and ranking unseen (query, document) pairs, and is helpful for real-world RAG development.
- Abstract(参考訳): Retrieval Augmented Generation (RAG) はドメイン固有のドキュメントのクエリに対する応答を基盤として広く使われている。
しかし、RAGの実装は重要な情報を残しているのか、あるいは無関係な情報を過剰に含んでいるのか?
これらの懸念を和らげるためには、クエリやドメインによって関連性の定義が異なるため、情報検索(IR)のパフォーマンスを評価するために、ドメイン固有のベンチマークをアノテートする必要がある。
さらに、このようなベンチマークは、アノテーション選択バイアスを避けるために、コスト効率のよいアノテートをすべきである。
本稿では,DIRAS(Domain-specific Information Retrieval Annotation with Scalability)を提案する。
拡張評価により, DIRAS の微調整モデルにより, 注釈付き (クエリ, ドキュメント) ペアのアノテートおよびランキングにおいて GPT-4 レベルの性能が得られ, 実世界の RAG 開発に有用であることが示唆された。
関連論文リスト
- Parametric Retrieval Augmented Generation [32.29608109539912]
Parametric RAGは、外部知識を直接フィードフォワードネットワークのパラメータに統合する新しいRAGパラダイムである。
これは、大きな言語モデルにおける知識増強の有効性と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-01-27T10:04:49Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - SAGEval: The frontiers of Satisfactory Agent based NLG Evaluation for reference-free open-ended text [0.848663031844483]
本稿では,参照/グラウンドラベルが存在しない,あるいは十分に利用できない,自然言語生成のためのロバストな評価手法を開発する必要性を明らかにする。
本研究では,LCM評価器のスコアを補正し,複雑なNLG評価シナリオにおいてもラベル付きデータの必要性を低減できることを示す。
論文 参考訳(メタデータ) (2024-11-25T04:07:16Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
大規模言語モデル(LLM)は、内部(パラメトリック)知識にのみ依存して、事実的な回答を生成するのに苦労することが多い。
この制限に対処するため、Retrieval-Augmented Generation (RAG)システムでは、外部ソースから関連情報を検索することでLLMを強化している。
我々はLLMのランキング機能を活用してW-RAGを提案する。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - Evaluation of RAG Metrics for Question Answering in the Telecom Domain [0.650923326742559]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)が質問応答(QA)タスクを実行できるようにするために広く使われている。
この作業は、いくつかの指標(事実性、文脈関連性、回答関連性、回答正当性、回答類似性、事実正当性)に対して修正されたこのパッケージで、プロンプトの中間出力を提供する。
次に、修正されたRAGASパッケージの出力のエキスパート評価を分析し、通信領域で使用する際の課題を観察する。
論文 参考訳(メタデータ) (2024-07-15T17:40:15Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。