論文の概要: Literary Evidence Retrieval via Long-Context Language Models
- arxiv url: http://arxiv.org/abs/2506.03090v1
- Date: Tue, 03 Jun 2025 17:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.88572
- Title: Literary Evidence Retrieval via Long-Context Language Models
- Title(参考訳): 長期言語モデルによる文学的証拠検索
- Authors: Katherine Thai, Mohit Iyyer,
- Abstract要約: 現代長文言語モデルは、文学的フィクションをどの程度理解しているか?
一次資料の全文をLCMに提供し,その著作からの引用を欠いた文芸的批判を伴って評価するベンチマークを構築した。
この設定は、グローバルな物語推論と密接なテキスト検定の両方を行うモデルを必要とすることによって、文学的分析の人間の過程を反映している。
- 参考スコア(独自算出の注目度): 39.174955595897366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How well do modern long-context language models understand literary fiction? We explore this question via the task of literary evidence retrieval, repurposing the RELiC dataset of That et al. (2022) to construct a benchmark where the entire text of a primary source (e.g., The Great Gatsby) is provided to an LLM alongside literary criticism with a missing quotation from that work. This setting, in which the model must generate the missing quotation, mirrors the human process of literary analysis by requiring models to perform both global narrative reasoning and close textual examination. We curate a high-quality subset of 292 examples through extensive filtering and human verification. Our experiments show that recent reasoning models, such as Gemini Pro 2.5 can exceed human expert performance (62.5% vs. 50% accuracy). In contrast, the best open-weight model achieves only 29.1% accuracy, highlighting a wide gap in interpretive reasoning between open and closed-weight models. Despite their speed and apparent accuracy, even the strongest models struggle with nuanced literary signals and overgeneration, signaling open challenges for applying LLMs to literary analysis. We release our dataset and evaluation code to encourage future work in this direction.
- Abstract(参考訳): 現代長文言語モデルは、文学的フィクションをどの程度理解しているか?
本稿では,文学的エビデンス検索の課題として,2022年のSath et al の RELiC データセットを再利用して,主要な資料(例えば The Great Gatsby)の全文を LLM に提供したベンチマークを構築する。
モデルが欠落した引用を生成する必要があるこの設定は、グローバルな物語推論と密接なテキスト検査の両方を実行するためにモデルを必要とすることによって、文学分析の人間の過程を反映する。
我々は、広範囲なフィルタリングと人間の検証を通じて、292例の高品質なサブセットをキュレートする。
Gemini Pro 2.5のような最近の推論モデルは、人間の専門家のパフォーマンス(62.5%対50%の精度)を超えている。
対照的に、最良のオープンウェイトモデルは29.1%の精度しか達成せず、オープンウェイトモデルとクローズドウェイトモデルの間の解釈的推論の幅広いギャップを浮き彫りにしている。
そのスピードと明らかな正確さにもかかわらず、最強のモデルでさえ、微妙な文学的信号と過剰な生成に苦しむようになり、LLMを文学的分析に適用するためのオープンな課題を示唆している。
この方向への今後の作業を促進するために、データセットと評価コードをリリースします。
関連論文リスト
- Large Language Models for Automated Literature Review: An Evaluation of Reference Generation, Abstract Writing, and Review Composition [2.048226951354646]
大規模言語モデル(LLM)は、文学レビューを書くことに関わる複雑なプロセスを自動化するための潜在的な解決策として登場した。
本研究は,文学書記の3つの重要な課題において,LLMの性能を自動評価する枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-18T08:42:25Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers [25.268709339109893]
我々は,最近のLarge Language Models (LLMs) について,短いストーリーを要約する難しい課題について評価する。
私たちは著者と直接協力して、ストーリーがオンラインで共有されていないことを保証しています(従ってモデルによって見つからないのです)。
GPT-4、Claude-2.1、LLama-2-70Bを比較し、全3モデルが50%以上の要約で忠実さの誤りを犯していることを発見した。
論文 参考訳(メタデータ) (2024-03-02T01:52:14Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - RELIC: Retrieving Evidence for Literary Claims [29.762552250403544]
文献証拠検索の新たな課題を定式化するために,78Kの文献引用の大規模データセットを用いた。
本稿では,既存の事前学習情報検索基準よりも優れたRoBERTaを用いた高密度経路検索手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T16:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。