論文の概要: DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs
- arxiv url: http://arxiv.org/abs/2406.17158v1
- Date: Mon, 24 Jun 2024 22:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:11:29.117908
- Title: DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs
- Title(参考訳): DEXTER: LLMを用いたオープンドメイン複合質問回答ベンチマーク
- Authors: Venktesh V. Deepali Prabhu, Avishek Anand,
- Abstract要約: オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
- 参考スコア(独自算出の注目度): 3.24692739098077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain complex Question Answering (QA) is a difficult task with challenges in evidence retrieval and reasoning. The complexity of such questions could stem from questions being compositional, hybrid evidence, or ambiguity in questions. While retrieval performance for classical QA tasks is well explored, their capabilities for heterogeneous complex retrieval tasks, especially in an open-domain setting, and the impact on downstream QA performance, are relatively unexplored. To address this, in this work, we propose a benchmark composing diverse complex QA tasks and provide a toolkit to evaluate state-of-the-art pre-trained dense and sparse retrieval models in an open-domain setting. We observe that late interaction models and surprisingly lexical models like BM25 perform well compared to other pre-trained dense retrieval models. In addition, since context-based reasoning is critical for solving complex QA tasks, we also evaluate the reasoning capabilities of LLMs and the impact of retrieval performance on their reasoning capabilities. Through experiments, we observe that much progress is to be made in retrieval for complex QA to improve downstream QA performance. Our software and related data can be accessed at https://github.com/VenkteshV/DEXTER
- Abstract(参考訳): オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
このような質問の複雑さは、構成的、ハイブリッドな証拠、あるいは質問の曖昧さに起因する可能性がある。
古典的QAタスクの検索性能はよく検討されているが、特にオープンドメイン環境では、不均一な複雑な検索タスクの能力と、下流QAパフォーマンスへの影響は、比較的調査されていない。
そこで本研究では,多種多様なQAタスクを構成するベンチマークを提案し,オープンドメイン環境下で,最先端の訓練済みの高密度・スパース検索モデルを評価するツールキットを提供する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
さらに,複雑なQA課題の解決にコンテキストベースの推論が不可欠であるため,LLMの推論能力と検索性能が推論能力に与える影響も評価する。
実験を通して、下流QA性能を改善するために、複雑なQAの検索において、多くの進歩が達成されるのを観察する。
私たちのソフトウェアと関連するデータはhttps://github.com/VenkteshV/DEXTERでアクセスできます。
関連論文リスト
- KaPQA: Knowledge-Augmented Product Question-Answering [59.096607961704656]
我々はAdobe AcrobatとPhotoshop製品に焦点を当てた2つのQAデータセットを紹介した。
また、製品QAタスクにおけるモデルの性能を高めるために、新しい知識駆動型RAG-QAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T22:14:56Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - HiQA: A Hierarchical Contextual Augmentation RAG for Massive Documents
QA [14.20201554222619]
HiQAは、カスケードメタデータをコンテンツとマルチルート検索機構に統合する。
MDQAを評価・研究するためのベンチマークMasQAをリリースする。
論文 参考訳(メタデータ) (2024-02-01T02:24:15Z) - In-Context Ability Transfer for Question Decomposition in Complex QA [6.745884231594893]
複雑な問合せ課題を解決するために,icat(In-Context Ability Transfer)を提案する。
複雑な質問を単純な質問に分解したり、ステップバイステップの合理性をLSMに生成することができる。
本研究では, 数値推論, 構成複素QA, 不均一複素QAを含む多種多様な複雑なQAタスクについて大規模に実験を行った。
論文 参考訳(メタデータ) (2023-10-26T11:11:07Z) - Performance Prediction for Multi-hop Questions [7.388002745070808]
オープンドメイン型マルチホップ質問の性能を予測するための検索前手法であるmultHPを提案する。
評価の結果,提案モデルが従来のシングルホップQPPモデルよりも優れた性能を示すことが示唆された。
論文 参考訳(メタデータ) (2023-08-12T01:34:41Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Narrative Question Answering with Cutting-Edge Open-Domain QA
Techniques: A Comprehensive Study [45.9120218818558]
我々は,NarrativeQAデータセットについて,最先端ODQA技術を用いた実験でベンチマークを行った。
このことは、書籍のQAがもたらす課題を定量化し、発行された最先端技術がルージュ-Lの絶対的な改善として$sim$7%で進歩する。
その結果,イベント中心の質問がこのタスクを支配しており,イベント指向シナリオを扱うための既存のQAモデルの欠如を実証していることがわかった。
論文 参考訳(メタデータ) (2021-06-07T17:46:09Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。