論文の概要: Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents
- arxiv url: http://arxiv.org/abs/2410.00526v1
- Date: Tue, 1 Oct 2024 09:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:57:03.357163
- Title: Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents
- Title(参考訳): マルチインストラクショナル文書における対話型質問応答のための大規模言語モデルのベンチマーク
- Authors: Shiwei Wu, Chen Zhang, Yan Gao, Qimeng Wang, Tong Xu, Yao Hu, Enhong Chen,
- Abstract要約: 対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
- 参考スコア(独自算出の注目度): 61.41316121093604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instructional documents are rich sources of knowledge for completing various tasks, yet their unique challenges in conversational question answering (CQA) have not been thoroughly explored. Existing benchmarks have primarily focused on basic factual question-answering from single narrative documents, making them inadequate for assessing a model`s ability to comprehend complex real-world instructional documents and provide accurate step-by-step guidance in daily life. To bridge this gap, we present InsCoQA, a novel benchmark tailored for evaluating large language models (LLMs) in the context of CQA with instructional documents. Sourced from extensive, encyclopedia-style instructional content, InsCoQA assesses models on their ability to retrieve, interpret, and accurately summarize procedural guidance from multiple documents, reflecting the intricate and multi-faceted nature of real-world instructional tasks. Additionally, to comprehensively assess state-of-the-art LLMs on the InsCoQA benchmark, we propose InsEval, an LLM-assisted evaluator that measures the integrity and accuracy of generated responses and procedural instructions.
- Abstract(参考訳): インストラクショナルドキュメントは様々なタスクを完了するための豊富な知識源であるが、会話型質問応答(CQA)におけるそれらの固有の課題は、十分に解明されていない。
既存のベンチマークは主に、単一の物語文書からの基本的な事実回答に焦点を当てており、複雑な現実世界の教育文書を理解でき、日々の生活における正確なステップバイステップのガイダンスを提供するモデルの能力を評価するのに不十分である。
このギャップを埋めるため,CQAの文脈で大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典的な教育内容から派生したもので、複数の文書から手続き的指導を検索し、解釈し、正確に要約する能力のモデルを評価し、現実世界の教育タスクの複雑で多面的な性質を反映している。
さらに,InsCoQAベンチマーク上での最先端LCMの総合評価のために,生成した応答の完全性と精度と手続き的指示の精度を計測するLCM支援評価器であるInsEvalを提案する。
関連論文リスト
- Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models [27.90653125902507]
本稿では,知識集約型タスク設定として,クエリ中心の要約を再構成する知識集約型アプローチを提案する。
検索モジュールは、大規模知識コーパスから潜在的に関連のある文書を効率的に検索する。
要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-19T18:54:20Z) - SEAM: A Stochastic Benchmark for Multi-Document Tasks [30.153949809172605]
現在、マルチドキュメントタスクにおける大規模言語モデル(LLM)の能力を測定するベンチマークは存在しない。
マルチドキュメントタスクの評価手法であるSEAM(SEAM: Evaluation Approach for Multi-document task)を提案する。
マルチドキュメントタスクは,70Bパラメータを持つ最先端モデルであっても,LLMにとって大きな課題となる。
論文 参考訳(メタデータ) (2024-06-23T11:57:53Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。