論文の概要: FanOutQA: Multi-Hop, Multi-Document Question Answering for Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.14116v1
- Date: Wed, 21 Feb 2024 20:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:11:51.335995
- Title: FanOutQA: Multi-Hop, Multi-Document Question Answering for Large
Language Models
- Title(参考訳): FanOutQA: 大規模言語モデルに対するマルチホップ・マルチドキュメント質問回答
- Authors: Andrew Zhu and Alyssa Hwang and Liam Dugan and Chris Callison-Burch
- Abstract要約: FanOutQA(ファンアウトQA)は、ウィキペディアによる高品質な質問応答ペアと人間による注釈付き分解のデータセットである。
GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化します。
- 参考スコア(独自算出の注目度): 40.800025261168265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One type of question that is commonly found in day-to-day scenarios is
``fan-out'' questions, complex multi-hop, multi-document reasoning questions
that require finding information about a large number of entities. However,
there exist few resources to evaluate this type of question-answering
capability among large language models. To evaluate complex reasoning in LLMs
more fully, we present FanOutQA, a high-quality dataset of fan-out
question-answer pairs and human-annotated decompositions with English Wikipedia
as the knowledge base. We formulate three benchmark settings across our dataset
and benchmark 7 LLMs, including GPT-4, LLaMA 2, Claude-2.1, and Mixtral-8x7B,
finding that contemporary models still have room to improve reasoning over
inter-document dependencies in a long context. We provide our dataset and
open-source tools to run models to encourage evaluation at https://fanoutqa.com
- Abstract(参考訳): 日々のシナリオでよく見られる質問の1つは、'ファンアウト'の質問、複雑なマルチホップ、マルチドキュメント推論の質問であり、多数のエンティティに関する情報を見つける必要がある。
しかし,大規模な言語モデルでは,このような質問応答能力を評価するリソースは少ない。
llmsの複雑な推論をより完全に評価するために、fanoutqaという、ファンアウトの質問応答ペアの高品質なデータセットと、英語のwikipediaを知識ベースとして人間が注釈付き分解を提案する。
我々は、GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化した。
私たちはデータセットとオープンソースツールを提供し、https://fanoutqa.comで評価を促進するためにモデルを実行しています。
関連論文リスト
- ERBench: An Entity-Relationship based Automatically Verifiable
Hallucination Benchmark for Large Language Models [48.38966595131693]
大規模言語モデル(LLM)は、様々なアプリケーションにおいて前例のない性能を達成したが、その評価は依然として重要な問題である。
既存のリレーショナルデータベースを利用することは、正確な知識記述のためにベンチマークを構築する上で有望なアプローチである、と我々は主張する。
本稿では,エンティティ・リレーショナル・モデル(ER)に基づいて,関係データベースを自動的にベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based
Question Answering [62.14682452663157]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-of-Discussionフレームワークを提案する。
実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-26T05:31:34Z) - Pragmatic Evaluation of Clarifying Questions with Fact-Level Masking [21.480602733510256]
質問を明確にするための自然言語実践的質問(PACQ)の定義とフレームワークを提案する。
また、自然言語データセットを自己教師付きPACQデータセットに変換するためのファクトレベルマスキング(FLM)も提案する。
実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して,有用な情報を取得するための質問に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-17T20:40:59Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering [40.86455734818704]
オープンドメインのマルチホップ質問応答のためのほとんどショットラーニングは、大言語モデルの非コンテキストラーニング能力に依存している。
そこで本研究では,10組未満のアノテート質問応答対を必要とするマルチホップ質問応答のためのデータ合成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:57:31Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z) - How Well Do Multi-hop Reading Comprehension Models Understand Date
Information? [31.243088887839257]
比較問題に対する解答を見つける際に、複数のホップモデルがステップバイステップの推論を行う能力は、まだ不明である。
また、内部推論プロセスに関する質問が、質問応答システム(QA)のトレーニングや評価にどのように役立つかは、不明である。
論文 参考訳(メタデータ) (2022-10-11T07:24:07Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。