論文の概要: Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
- arxiv url: http://arxiv.org/abs/2407.01370v1
- Date: Mon, 1 Jul 2024 15:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:00:48.363230
- Title: Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
- Title(参考訳): Haystackの概要:長期LLMとRAGシステムへの挑戦
- Authors: Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: 我々は、文書のHaystackを合成する手順を設計し、特定のテキストが文書間で繰り返されることを保証します。
すると、"Summary of a Haystack"(SummHay)タスクは、Haystackを処理し、クエリ、関連する洞察を特定し、ソースドキュメントを正確に引用する要約を生成するシステムを必要とする。
- 参考スコア(独自算出の注目度): 124.82815637571413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs and RAG systems are now capable of handling millions of input tokens or more. However, evaluating the output quality of such systems on long-context tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity. In this work, we argue that summarization can play a central role in such evaluation. We design a procedure to synthesize Haystacks of documents, ensuring that specific \textit{insights} repeat across documents. The "Summary of a Haystack" (SummHay) task then requires a system to process the Haystack and generate, given a query, a summary that identifies the relevant insights and precisely cites the source documents. Since we have precise knowledge of what insights should appear in a haystack summary and what documents should be cited, we implement a highly reproducible automatic evaluation that can score summaries on two aspects - Coverage and Citation. We generate Haystacks in two domains (conversation, news), and perform a large-scale evaluation of 10 LLMs and corresponding 50 RAG systems. Our findings indicate that SummHay is an open challenge for current systems, as even systems provided with an Oracle signal of document relevance lag our estimate of human performance (56\%) by 10+ points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to study enterprise RAG systems and position bias in long-context models. We hope future systems can equal and surpass human performance on SummHay.
- Abstract(参考訳): LLMとRAGシステムは今や数百万の入力トークンを処理できる。
しかし、Long-Contextタスクでそのようなシステムの出力品質を評価することは困難であり、Needdle-in-a-Haystackのようなタスクは複雑さを欠いている。
本研究では,このような評価において,要約が中心的な役割を果たすことを論じる。
我々は、文書のHaystackを合成する手順を設計し、特定の \textit{insights} が文書間で繰り返されることを保証します。
すると、"Summary of a Haystack"(SummHay)タスクは、Haystackを処理し、クエリ、関連する洞察を特定し、ソースドキュメントを正確に引用する要約を生成するシステムを必要とする。
我々は、干し草の要約にどんな洞察が現れるべきか、どんな文書が引用されるべきなのかを正確に把握しているので、非常に再現性の高い自動評価を実施し、カバレッジとCitationという2つの側面で要約を評価できる。
我々は2つのドメイン(会話、ニュース)でHaystackを生成し、10個のLLMと対応する50個のRAGシステムの大規模評価を行う。
この結果から,SummHayは現在のシステムにとってオープンな課題であることが示唆された。Oracleの文書関連信号を備えたシステムでさえ,ジョイントスコア上で10点以上の人的パフォーマンス(56\%)を見積もっている。
レトリバーがなければ、GPT-4oやClaude 3 Opusのような長いコンテキストのLLMはSummHayで20%以下になる。
SummHayは、エンタープライズRAGシステムや長期コンテキストモデルにおける位置バイアスの研究にも利用できることを示す。
SummHayの今後のシステムは、人間のパフォーマンスに匹敵するものであることを願っている。
関連論文リスト
- DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。
既存の属性に対するアプローチはRAG設定でのみ評価されている。
これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。
そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文 参考訳(メタデータ) (2024-07-10T16:16:02Z) - Harnessing Multi-Role Capabilities of Large Language Models for
Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。
本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。
我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:13Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - Visconde: Multi-document QA with GPT-3 and Neural Reranking [4.9069311006119865]
本稿では,複数の文書にまたがる証拠を裏付ける質問に回答できる質問応答システムを提案する。
Viscondeと呼ばれるこのシステムは、3ステップのパイプラインを使ってタスクを実行する。
論文 参考訳(メタデータ) (2022-12-19T17:39:07Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Hurdles to Progress in Long-form Question Answering [34.805039943215284]
タスクの定式化は評価とデータセットの作成に関する根本的な課題を提起する。
まず,最先端性能を実現するために,注意の疎化とコントラストレトリバー学習による新しいシステムを設計する。
論文 参考訳(メタデータ) (2021-03-10T20:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。