論文の概要: Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels
- arxiv url: http://arxiv.org/abs/2505.14925v1
- Date: Tue, 20 May 2025 21:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.763052
- Title: Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels
- Title(参考訳): 長すぎる、モデルではない: LLMの長文理解を小説で分解する
- Authors: Sil Hamilton, Rebecca M. M. Hicke, Matthew Wilkens, David Mimno,
- Abstract要約: Too Long, Didn't Modelベンチマークをリリースしました。
プロットサマリー、ストーリーワールド構成、経過したストーリータイムを報告するモデルの能力をテストする。
テストされた7つのフロンティアLSMのうち、64kトークン以上の安定な理解は得られていない。
- 参考スコア(独自算出の注目度): 3.537369004801589
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although the context length of large language models (LLMs) has increased to millions of tokens, evaluating their effectiveness beyond needle-in-a-haystack approaches has proven difficult. We argue that novels provide a case study of subtle, complicated structure and long-range semantic dependencies often over 128k tokens in length. Inspired by work on computational novel analysis, we release the Too Long, Didn't Model (TLDM) benchmark, which tests a model's ability to report plot summary, storyworld configuration, and elapsed narrative time. We find that none of seven tested frontier LLMs retain stable understanding beyond 64k tokens. Our results suggest language model developers must look beyond "lost in the middle" benchmarks when evaluating model performance in complex long-context scenarios. To aid in further development we release the TLDM benchmark together with reference code and data.
- Abstract(参考訳): 大規模言語モデル(LLM)の文脈長は数百万のトークンに増加したが、ニードル・イン・ア・ヘイスタックのアプローチを超える効果を評価することは困難であることが証明された。
小説は、微妙で複雑な構造と長い範囲のセマンティックな依存関係のケーススタディを提供し、しばしば長さ128k以上のトークンを提供する。
このベンチマークは、プロット・サマリー、ストーリーワールド・コンフィグレーション、経過した物語の時間といったモデルの性能をテストします。
テストされた7つのフロンティアLSMのうち、64kトークン以上の安定な理解は得られていない。
以上の結果から,言語モデル開発者は,複雑な長期コンテキストシナリオにおけるモデルパフォーマンスを評価する際に,"中間層におけるロスト"ベンチマークを超えることを示唆している。
さらなる開発を支援するため、TLDMベンチマークをリファレンスコードとデータとともにリリースします。
関連論文リスト
- LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm [21.661578831520963]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
解析の結果,LLMは長文生成における長文要求や情報密度に悩まされていることが明らかとなった。
提案するLongEvalは,直接および計画に基づく生成パラダイムを用いて,長文生成を評価するベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T12:46:36Z) - LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation [74.89981179257194]
LongProc (Long Procedural Generation)は、Long-Context Language Model (LCLM) を評価するための新しいベンチマークである。
LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。
我々は,LongProcの命令調整モデルと最近の推論モデルを含む23個のLCLMを,500,2K,8Kで設定された最大出力トークン数で3つの難易度で評価した。
論文 参考訳(メタデータ) (2025-01-09T18:16:55Z) - CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels [11.614599448394374]
CNNSumは,中国小説をベースとした多スケール長文要約ベンチマークである。
CNNSumは4つのサブセットにまたがって、合計695のサンプルで、長さは16kから128kである。
我々は、多数のLCMをベンチマークし、異常な出力タイプを要約するために詳細な人間の評価を行う。
論文 参考訳(メタデータ) (2024-12-03T20:35:57Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。
NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。
ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。