論文の概要: Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels
- arxiv url: http://arxiv.org/abs/2505.14925v1
- Date: Tue, 20 May 2025 21:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.763052
- Title: Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels
- Title(参考訳): 長すぎる、モデルではない: LLMの長文理解を小説で分解する
- Authors: Sil Hamilton, Rebecca M. M. Hicke, Matthew Wilkens, David Mimno,
- Abstract要約: Too Long, Didn't Modelベンチマークをリリースしました。
プロットサマリー、ストーリーワールド構成、経過したストーリータイムを報告するモデルの能力をテストする。
テストされた7つのフロンティアLSMのうち、64kトークン以上の安定な理解は得られていない。
- 参考スコア(独自算出の注目度): 3.537369004801589
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although the context length of large language models (LLMs) has increased to millions of tokens, evaluating their effectiveness beyond needle-in-a-haystack approaches has proven difficult. We argue that novels provide a case study of subtle, complicated structure and long-range semantic dependencies often over 128k tokens in length. Inspired by work on computational novel analysis, we release the Too Long, Didn't Model (TLDM) benchmark, which tests a model's ability to report plot summary, storyworld configuration, and elapsed narrative time. We find that none of seven tested frontier LLMs retain stable understanding beyond 64k tokens. Our results suggest language model developers must look beyond "lost in the middle" benchmarks when evaluating model performance in complex long-context scenarios. To aid in further development we release the TLDM benchmark together with reference code and data.
- Abstract(参考訳): 大規模言語モデル(LLM)の文脈長は数百万のトークンに増加したが、ニードル・イン・ア・ヘイスタックのアプローチを超える効果を評価することは困難であることが証明された。
小説は、微妙で複雑な構造と長い範囲のセマンティックな依存関係のケーススタディを提供し、しばしば長さ128k以上のトークンを提供する。
このベンチマークは、プロット・サマリー、ストーリーワールド・コンフィグレーション、経過した物語の時間といったモデルの性能をテストします。
テストされた7つのフロンティアLSMのうち、64kトークン以上の安定な理解は得られていない。
以上の結果から,言語モデル開発者は,複雑な長期コンテキストシナリオにおけるモデルパフォーマンスを評価する際に,"中間層におけるロスト"ベンチマークを超えることを示唆している。
さらなる開発を支援するため、TLDMベンチマークをリファレンスコードとデータとともにリリースします。
関連論文リスト
- LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm [21.661578831520963]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
解析の結果,LLMは長文生成における長文要求や情報密度に悩まされていることが明らかとなった。
提案するLongEvalは,直接および計画に基づく生成パラダイムを用いて,長文生成を評価するベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T12:46:36Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。