論文の概要: Telco-DPR: A Hybrid Dataset for Evaluating Retrieval Models of 3GPP Technical Specifications
- arxiv url: http://arxiv.org/abs/2410.19790v1
- Date: Tue, 15 Oct 2024 16:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:19:42.010668
- Title: Telco-DPR: A Hybrid Dataset for Evaluating Retrieval Models of 3GPP Technical Specifications
- Title(参考訳): Telco-DPR:3GPP技術仕様の検索モデル評価用ハイブリッドデータセット
- Authors: Thaina Saraiva, Marco Sousa, Pedro Vieira, António Rodrigues,
- Abstract要約: 本稿では,第3世代パートナーシッププロジェクト技術文書を用いた通信分野を対象としたQAシステムを提案する。
テキストとテーブルを組み合わせたハイブリッドデータセットであるTelco-DPRが提示され、一連の合成質問/回答ペアが含まれている。
トップK精度と平均相反ランク(MRR)を用いて、検索モデルの評価と比較を行う。
提案するQAシステムは,改良されたRAGモデルと生成事前学習変換器(GPT)-4を用いて,解答精度を14%向上させる。
- 参考スコア(独自算出の注目度): 0.8999666725996975
- License:
- Abstract: This paper proposes a Question-Answering (QA) system for the telecom domain using 3rd Generation Partnership Project (3GPP) technical documents. Alongside, a hybrid dataset, Telco-DPR, which consists of a curated 3GPP corpus in a hybrid format, combining text and tables, is presented. Additionally, the dataset includes a set of synthetic question/answer pairs designed to evaluate the retrieval performance of QA systems on this type of data. The retrieval models, including the sparse model, Best Matching 25 (BM25), as well as dense models, such as Dense Passage Retriever (DPR) and Dense Hierarchical Retrieval (DHR), are evaluated and compared using top-K accuracy and Mean Reciprocal Rank (MRR). The results show that DHR, a retriever model utilising hierarchical passage selection through fine-tuning at both the document and passage levels, outperforms traditional methods in retrieving relevant technical information, achieving a Top-10 accuracy of 86.2%. Additionally, the Retriever-Augmented Generation (RAG) technique, used in the proposed QA system, is evaluated to demonstrate the benefits of using the hybrid dataset and the DHR. The proposed QA system, using the developed RAG model and the Generative Pretrained Transformer (GPT)-4, achieves a 14% improvement in answer accuracy, when compared to a previous benchmark on the same dataset.
- Abstract(参考訳): 本稿では,第3世代パートナーシッププロジェクト(GPP)技術文書を用いた通信分野を対象としたQAシステムを提案する。
同時に、テキストとテーブルを組み合わせたハイブリッド形式の3GPPコーパスをキュレートしたハイブリッドデータセットであるTelco-DPRが提示される。
さらに、このデータセットには、この種のデータに基づくQAシステムの検索性能を評価するために設計された、一連の合成質問/回答ペアが含まれている。
スパースモデル,Best Matching 25 (BM25) およびDense Passage Retriever (DPR) やDense Hierarchical Retrieval (DHR) などの高密度モデルを含む検索モデルは,上位K精度と平均相反ランク (MRR) を用いて評価・比較する。
その結果,文書と通過レベルの微調整による階層的通過選択を利用した検索モデルであるDHRは,関連技術情報の検索において従来の手法より優れ,86.2%の精度でトップ10を達成していることがわかった。
さらに,提案したQAシステムで使用されるRetriever-Augmented Generation (RAG)技術を評価し,ハイブリッドデータセットとDHRの利点を実証する。
提案したQAシステムは,開発RAGモデルと生成事前学習変換器(GPT)-4を用いて,同一データセットの以前のベンチマークと比較すると,回答精度が14%向上した。
関連論文リスト
- RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA [5.0108982850526]
検索拡張生成(RAG)は、外部データベースから事実情報を抽出することにより、生成AIモデルの精度と信頼性を高める。
本稿では、EDAツールドキュメンテーションQAのための3つのドメイン固有のテクニックとともに、カスタマイズされたRAGフレームワークを提案する。
我々は,高度なRTL-to-GDSII設計プラットフォームであるOpenROADのドキュメントQA評価ベンチマークであるORD-QAを開発し,リリースした。
論文 参考訳(メタデータ) (2024-07-22T03:44:27Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - Is ChatGPT a game changer for geocoding -- a benchmark for geocoding
address parsing techniques [3.759936323189418]
実運用におけるジオコーディングシステムの実際の入力ログから抽出した人間の入力パターンに基づいて合成された低品質アドレス記述のベンチマークデータセットを提案する。
このデータセットには21の異なる入力エラーとバリエーションがあり、アメリカ50州とワシントンD.C.の通りから一意に選択された239,000以上のアドレス記録が含まれている。
アドレス成分抽出におけるGPT-3モデルの性能を,トランスフォーマーベースモデルとLSTMベースモデルとを比較して評価する。
論文 参考訳(メタデータ) (2023-10-22T17:03:56Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - QUADRo: Dataset and Models for QUestion-Answer Database Retrieval [97.84448420852854]
質問/回答(q/a)ペアのデータベース(DB)が与えられた場合、同じ質問に対してDBをスキャンすることで、対象の質問に答えることができる。
我々は6.3Mのq/aペアからなる大規模DBを構築し、公開質問を用いて、ニューラルIRとq/aペアリランカに基づく新しいシステムを設計する。
我々は、Bing検索エンジン上に構築されたQAシステムという、Webベースの手法とDBベースのアプローチが競合することを示す。
論文 参考訳(メタデータ) (2023-03-30T00:42:07Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - Learning to Rank Question Answer Pairs with Bilateral Contrastive Data
Augmentation [39.22166065525888]
本稿では,バイラテラル生成(Bilateral Generation, BiG)という,新鮮で使いやすいデータ拡張戦略を提案する。
拡張データセットを用いて、質問応答ペアのランク付けを学習するための対照的な訓練目標を設計する。
TREC-QA,WikiQA,AntiQUEの3つのベンチマークデータセットによる実験結果から,本手法はランキングモデルの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-06-21T13:29:43Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。