論文の概要: LiteraryQA: Towards Effective Evaluation of Long-document Narrative QA
- arxiv url: http://arxiv.org/abs/2510.13494v1
- Date: Wed, 15 Oct 2025 12:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.669028
- Title: LiteraryQA: Towards Effective Evaluation of Long-document Narrative QA
- Title(参考訳): Literary QA: 長文ナラティブQAの有効評価に向けて
- Authors: Tommaso Bonomo, Luca Gioffré, Roberto Navigli,
- Abstract要約: 本稿では,文学作品に焦点を当てたナラティブQAの高品質サブセットであるLiteraryQAを紹介する。
ソース文書から不要なテキストを取り除き,品質の低いQAサンプルを同定し,修正する。
LiteraryQA 上で長文 LLM の集合をベンチマークする。
- 参考スコア(独自算出の注目度): 35.323445529050275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Question Answering (QA) on narrative text poses a unique challenge to current systems, requiring a deep understanding of long, complex documents. However, the reliability of NarrativeQA, the most widely used benchmark in this domain, is hindered by noisy documents and flawed QA pairs. In this work, we introduce LiteraryQA, a high-quality subset of NarrativeQA focused on literary works. Using a human- and LLM-validated pipeline, we identify and correct low-quality QA samples while removing extraneous text from source documents. We then carry out a meta-evaluation of automatic metrics to clarify how systems should be evaluated on LiteraryQA. This analysis reveals that all n-gram-based metrics have a low system-level correlation to human judgment, while LLM-as-a-Judge evaluations, even with small open-weight models, can strongly agree with the ranking identified by humans. Finally, we benchmark a set of long-context LLMs on LiteraryQA. We release our code and data at https://github.com/SapienzaNLP/LiteraryQA.
- Abstract(参考訳): ナラティブテキストに関する質問回答(QA)は、現在のシステムに固有の課題をもたらし、長い複雑なドキュメントを深く理解する必要がある。
しかしながら、この領域で最も広く使用されているベンチマークであるNarrativeQAの信頼性は、ノイズの多いドキュメントと欠陥のあるQAペアによって妨げられている。
本稿では,文学作品に焦点を当てたナラティブQAの高品質サブセットであるLiteraryQAを紹介する。
人為的およびLLM検証パイプラインを用いて、ソース文書から不要なテキストを取り除きながら、品質の低いQAサンプルを特定し、修正する。
次に、自動メトリクスのメタ評価を行い、LiteraryQA上でシステムがどのように評価されるべきかを明らかにする。
この分析によれば、全てのn-gramベースの指標は、人間の判断とシステムレベルの相関が低く、LLM-as-a-Judge評価は、小さなオープンウェイトモデルであっても、人間によって特定されるランクに強く一致する。
最後に、LiteraryQA上で長文LLMのセットをベンチマークする。
コードとデータはhttps://github.com/SapienzaNLP/LiteraryQA.comで公開しています。
関連論文リスト
- Towards a Holistic and Automated Evaluation Framework for Multi-Level Comprehension of LLMs in Book-Length Contexts [19.640586886024952]
HAMLETは、大規模言語モデルの長文理解を評価するためのフレームワークである。
テキストをルート、ブランチ、リーフレベルで3段階のキーファクト階層に構造化する。
クエリ中心の要約を使用して、モデルがどのようにして各レベルで情報をリコールし、忠実に表現するかを評価する。
論文 参考訳(メタデータ) (2025-08-27T05:23:22Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。