論文の概要: DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems
- arxiv url: http://arxiv.org/abs/2407.10701v1
- Date: Mon, 15 Jul 2024 13:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:11:40.924945
- Title: DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems
- Title(参考訳): DOCBENCH: LLMベースの文書読解システム評価ベンチマーク
- Authors: Anni Zou, Wenhao Yu, Hongming Zhang, Kaixin Ma, Deng Cai, Zhuosheng Zhang, Hai Zhao, Dong Yu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
- 参考スコア(独自算出の注目度): 99.17123445211115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a growing interest among large language model (LLM) developers in LLM-based document reading systems, which enable users to upload their own documents and pose questions related to the document contents, going beyond simple reading comprehension tasks. Consequently, these systems have been carefully designed to tackle challenges such as file parsing, metadata extraction, multi-modal information understanding and long-context reading. However, no current benchmark exists to evaluate their performance in such scenarios, where a raw file and questions are provided as input, and a corresponding response is expected as output. In this paper, we introduce DocBench, a new benchmark designed to evaluate LLM-based document reading systems. Our benchmark involves a meticulously crafted process, including the recruitment of human annotators and the generation of synthetic questions. It includes 229 real documents and 1,102 questions, spanning across five different domains and four major types of questions. We evaluate both proprietary LLM-based systems accessible via web interfaces or APIs, and a parse-then-read pipeline employing open-source LLMs. Our evaluations reveal noticeable gaps between existing LLM-based document reading systems and human performance, underscoring the challenges of developing proficient systems. To summarize, DocBench aims to establish a standardized benchmark for evaluating LLM-based document reading systems under diverse real-world scenarios, thereby guiding future advancements in this research area.
- Abstract(参考訳): 近年,LLM ベースの文書読解システムにおける大規模言語モデル (LLM) 開発者の関心が高まっている。
その結果、これらのシステムは、ファイル解析、メタデータ抽出、マルチモーダル情報理解、長文読解といった課題に取り組むために慎重に設計されている。
しかし、これらのシナリオでは、生のファイルと質問が入力として提供され、対応する応答が出力として期待されるため、それらのパフォーマンスを評価するための現在のベンチマークは存在しない。
本稿では,LLMに基づく文書読解システムの評価を目的とした新しいベンチマークであるDocBenchを紹介する。
私たちのベンチマークには、人間のアノテーションの募集や、合成質問の生成など、細心の注意を要するプロセスが含まれています。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
Web インターフェースや API を通じてアクセス可能な LLM ベースのシステムと,オープンソース LLM を利用したパース処理パイプラインの両方を評価した。
評価の結果,既存のLCMベースの文書読解システムと人的パフォーマンスの差が顕著であり,熟練したシステムを開発する上での課題を浮き彫りにしている。
要約すると、DocBench は LLM ベースの文書読解システムを様々な現実シナリオで評価するための標準化されたベンチマークを確立することを目的としており、この研究領域における今後の進歩を導くことを目的としている。
関連論文リスト
- Leveraging LLMs for Legacy Code Modernization: Challenges and Opportunities for LLM-Generated Documentation [2.249533649156367]
MUMPSやメインフレームアセンブリといった時代遅れの言語で記述されたレガシーソフトウェアシステムは、効率性、メンテナンス、スタッフリング、セキュリティにおいて課題を提起する。
本稿では,2つのデータセットを用いたレガシコードのための文書生成におけるLCMの利用について検討する。
本稿では,ラインワイドなコードコメントを生成するためのプロンプト戦略を提案し,その完全性,可読性,有用性,幻覚性を評価する。
論文 参考訳(メタデータ) (2024-11-22T14:27:27Z) - RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content [13.187520657952263]
大規模言語モデル(LLM)は大量のデータに基づいて訓練されており、そのほとんどは自動的にインターネットから取り除かれる。
トレーニングセットに漏れたかもしれない テストスプリットのモデルを評価する 結論を誤解させる傾向がある
本稿では,質問応答とトピック検索タスクに適したRepLiQAという新しいテストデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:52:54Z) - RepoQA: Evaluating Long Context Code Understanding [12.329233433333416]
RepoQAは、Large Language Models(LLM)を長文のコード理解で評価するためのベンチマークである。
RepoQAには、5つのモダンプログラミング言語にまたがる50の人気のあるリポジトリから収集された500のコード検索タスクが含まれている。
論文 参考訳(メタデータ) (2024-06-10T05:15:30Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Harnessing Multi-Role Capabilities of Large Language Models for
Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。
本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。
我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:13Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。