Fugu-MT 論文翻訳(概要): Measuring Retrieval Complexity in Question Answering Systems

論文の概要: Measuring Retrieval Complexity in Question Answering Systems

arxiv url: http://arxiv.org/abs/2406.03592v1
Date: Wed, 5 Jun 2024 19:30:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 19:14:47.845434
Title: Measuring Retrieval Complexity in Question Answering Systems
Title（参考訳）: 質問応答システムにおける検索複雑性の測定
Authors: Matteo Gabburo, Nicolaas Paul Jedema, Siddhant Garg, Leonardo F. R. Ribeiro, Alessandro Moschitti,
Abstract要約: 検索複雑性(Retrieval complexity, RC)は、検索された文書の完全性に基づく新しい計量である。任意の検索システムを用いてRCを計測するための教師なしパイプラインを提案する。本システムは検索システムに大きな影響を与える可能性がある。
参考スコア（独自算出の注目度）: 64.74106622822424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we investigate which questions are challenging for retrieval-based Question Answering (QA). We (i) propose retrieval complexity (RC), a novel metric conditioned on the completeness of retrieved documents, which measures the difficulty of answering questions, and (ii) propose an unsupervised pipeline to measure RC given an arbitrary retrieval system. Our proposed pipeline measures RC more accurately than alternative estimators, including LLMs, on six challenging QA benchmarks. Further investigation reveals that RC scores strongly correlate with both QA performance and expert judgment across five of the six studied benchmarks, indicating that RC is an effective measure of question difficulty. Subsequent categorization of high-RC questions shows that they span a broad set of question shapes, including multi-hop, compositional, and temporal QA, indicating that RC scores can categorize a new subset of complex questions. Our system can also have a major impact on retrieval-based systems by helping to identify more challenging questions on existing datasets.
Abstract（参考訳）: 本稿では,検索に基づく質問回答(QA)においてどの質問が困難なのかを検討する。我が家一検索複雑性(RC)とは、検索された文書の完全性に基づき、質問に答えることの難しさを測る新しい計量である。 (II)任意の検索システムに与えられたRCを測定するための教師なしパイプラインを提案する。提案するパイプラインは,6つのQAベンチマークにおいて,LLMを含む代替推定器よりもRCを正確に測定する。さらに、RCスコアは6つのベンチマークのうち5つでQA性能と専門家の判断の両方と強く相関しており、RCが質問の難易度を効果的に測定していることを示している。その後の高RC質問の分類は、複数のホップ、構成、時間的QAを含む幅広い質問形態にまたがっており、RCスコアが複雑な質問の新たなサブセットを分類できることを示している。我々のシステムは、既存のデータセットに関するより困難な質問の特定を支援することで、検索ベースのシステムに大きな影響を与える。

関連論文リスト

Inter-Passage Verification for Multi-evidence Multi-answer QA [22.233409308846067]
本稿では,新たな複数問合せ型QAフレームワークを提案する。本フレームワークは,各パスを個別に処理し,初期ハイリコールでノイズの多い応答セットを生成する。我々のフレームワークは、様々なモデルサイズで既存のベースラインを著しく上回り、平均的なF1スコアは11.17%向上した。
論文参考訳（メタデータ） (2025-05-31T07:03:52Z)
MHTS: Multi-Hop Tree Structure Framework for Generating Difficulty-Controllable QA Datasets for RAG Evaluation [5.525151548786079]
既存のRAGベンチマークはクエリの難しさを見落とし、単純な質問や信頼性の低い評価でパフォーマンスが膨らむ。 MHTS(Multi-Hop Tree Structure)は、マルチホップツリー構造を利用して、論理的に連結されたマルチチャンククエリを生成することで、マルチホップ推論の複雑さを制御する新しいデータセット合成フレームワークである。
論文参考訳（メタデータ） (2025-03-29T06:26:01Z)
SUNAR: Semantic Uncertainty based Neighborhood Aware Retrieval for Complex QA [2.7703990035016868]
SUNARは、大規模言語モデルを利用して、近隣の認識検索プロセスをガイドする新しいアプローチである。 2つの複雑なQAデータセットに関する広範な実験を通じて、我々のアプローチを検証する。以上の結果から,SUNARは既存の検索と推論のベースラインを大幅に上回り,最大31.84%の性能向上を実現している。
論文参考訳（メタデータ） (2025-03-23T08:50:44Z)
Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文参考訳（メタデータ） (2024-12-16T19:11:55Z)
An Adaptive Framework for Generating Systematic Explanatory Answer in Online Q&A Platforms [62.878616839799776]
質問応答(QA)性能を向上させるために設計された,革新的なフレームワークであるSynthRAGを提案する。 SynthRAGは動的コンテンツの構造化に適応的なアウトラインを用いることで従来のモデルを改善する。 Zhihuプラットフォーム上のオンラインデプロイメントでは、SynthRAGの回答が注目すべきユーザエンゲージメントを実現していることが明らかになった。
論文参考訳（メタデータ） (2024-10-23T09:14:57Z)
RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。 RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文参考訳（メタデータ） (2024-07-19T03:02:51Z)
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。 BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文参考訳（メタデータ） (2024-06-24T22:09:50Z)
Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。既存のアクティブ検索手法は2つの課題に直面している。彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文参考訳（メタデータ） (2024-06-18T12:09:02Z)
Towards Better Question Generation in QA-based Event Extraction [3.699715556687871]
イベント抽出(EE)は、構造化されていないテキストからイベント関連情報を抽出することを目的としている。質問の品質は、抽出精度に劇的に影響を及ぼす。本稿では,QAベースのEEのための強化学習手法RLQGを提案する。
論文参考訳（メタデータ） (2024-05-17T03:52:01Z)
In-Context Ability Transfer for Question Decomposition in Complex QA [6.745884231594893]
複雑な問合せ課題を解決するために,icat(In-Context Ability Transfer)を提案する。複雑な質問を単純な質問に分解したり、ステップバイステップの合理性をLSMに生成することができる。本研究では, 数値推論, 構成複素QA, 不均一複素QAを含む多種多様な複雑なQAタスクについて大規模に実験を行った。
論文参考訳（メタデータ） (2023-10-26T11:11:07Z)
Decomposing Complex Questions Makes Multi-Hop QA Easier and More Interpretable [25.676852169835833]
マルチホップQAでは、機械が複数の手がかりと推論を見つけることで複雑な質問に答える必要がある。本稿では,複雑な質問分解に基づく3段階のフレームワークであるRelation Extractor-Reader and Comparator(RERC)を提案する。 2WikiMultiHopQAデータセットでは、我々のRERCモデルは最も高度なパフォーマンスを達成し、勝利した合同F1スコアはリーダーボード上で53.58である。
論文参考訳（メタデータ） (2021-10-26T08:10:35Z)
Complex Knowledge Base Question Answering: A Survey [41.680033017518376]
知識ベース質問応答(KBQA)は、知識ベース(KB)に関する質問に答えることを目的としている。近年、研究者は複雑な疑問に答えることの難しさを考察する新しい手法を多数提案している。本稿では,複雑なKBQAの手法,すなわち意味解析法(SPベース)と情報検索法(IRベース)の2つの主要なカテゴリについて述べる。
論文参考訳（メタデータ） (2021-08-15T08:14:54Z)
NoiseQA: Challenge Set Evaluation for User-Centric Question Answering [68.67783808426292]
応答エンジンに先立つパイプライン内のコンポーネントが,多種多様なエラーの原因を発生させることができることを示す。我々は、QAシステムが効果的にデプロイされる前に、進歩の余地がかなりあると結論付けている。
論文参考訳（メタデータ） (2021-02-16T18:35:29Z)
Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文参考訳（メタデータ） (2020-04-06T22:35:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。