論文の概要: Sequential-NIAH: A Needle-In-A-Haystack Benchmark for Extracting Sequential Needles from Long Contexts
- arxiv url: http://arxiv.org/abs/2504.04713v1
- Date: Mon, 07 Apr 2025 03:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:13:10.181552
- Title: Sequential-NIAH: A Needle-In-A-Haystack Benchmark for Extracting Sequential Needles from Long Contexts
- Title(参考訳): シークエンシャルNIAH:長い文脈からシークエンシャルニードルを抽出するためのニードル・イン・A・ヘイスタックベンチマーク
- Authors: Yifei Yu, Qian-Wen Zhang, Lingfeng Qiao, Di Yin, Fang Li, Jie Wang, Zengxi Chen, Suncong Zheng, Xiaolong Liang, Xing Sun,
- Abstract要約: 本研究では,長期の文脈から逐次情報を抽出する大規模言語モデルの能力を評価するためのベンチマークであるSequential-NIAHを紹介する。
ベンチマークには、長さ8Kから128Kトークンまでのコンテキストと、14,000のサンプル(テスト用に2000が予約されている)のデータセットが含まれている。
- 参考スコア(独自算出の注目度): 23.076558892985986
- License:
- Abstract: Evaluating the ability of large language models (LLMs) to handle extended contexts is critical, particularly for retrieving information relevant to specific queries embedded within lengthy inputs. We introduce Sequential-NIAH, a benchmark specifically designed to evaluate the capability of LLMs to extract sequential information items (known as needles) from long contexts. The benchmark comprises three types of needle generation pipelines: synthetic, real, and open-domain QA. It includes contexts ranging from 8K to 128K tokens in length, with a dataset of 14,000 samples (2,000 reserved for testing). To facilitate evaluation on this benchmark, we trained a synthetic data-driven evaluation model capable of evaluating answer correctness based on chronological or logical order, achieving an accuracy of 99.49% on synthetic test data. We conducted experiments on six well-known LLMs, revealing that even the best-performing model achieved a maximum accuracy of only 63.15%. Further analysis highlights the growing challenges posed by increasing context lengths and the number of needles, underscoring substantial room for improvement. Additionally, noise robustness experiments validate the reliability of the benchmark, making Sequential-NIAH an important reference for advancing research on long text extraction capabilities of LLMs.
- Abstract(参考訳): 拡張コンテキストを扱うための大規模言語モデル(LLM)の能力を評価することは、特に長い入力に埋め込まれた特定のクエリに関連する情報を取得するために重要である。
本研究では,LLMが長いコンテキストから逐次情報項目(針)を抽出する能力を評価するためのベンチマークであるSequential-NIAHを紹介する。
ベンチマークは、合成、実、およびオープンドメインの3種類の針生成パイプラインで構成されている。
8Kから128Kトークンの長さのコンテキストを含み、データセットは14,000サンプル(テスト用に2000が予約されている)である。
本ベンチマークの評価を容易にするため, 合成試験データに対して99.49%の精度を達成し, 時間的, 論理的順序に基づいて解の正解性を評価できる合成データ駆動評価モデルを訓練した。
我々は6つの有名なLCM実験を行い、最高の性能モデルでさえ63.15%の最大精度を達成したことを明らかにした。
さらなる分析では、コンテキストの長さと針の数の増加によって生じる課題が強調され、改善の余地がかなり強調されている。
さらに、ノイズロバスト性実験によりベンチマークの信頼性が検証され、Sequential-NIAHはLLMの長文抽出能力の研究を進める上で重要な基準となる。
関連論文リスト
- NoLiMa: Long-Context Evaluation Beyond Literal Matching [100.00398424275501]
NoLiMaは、NIAHテストを拡張したベンチマークである。
干し草の山の中に針を見つけるためには、潜伏関係を推測するモデルが必要である。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12のポピュラーな大言語モデルを評価する。
論文 参考訳(メタデータ) (2025-02-07T18:49:46Z) - LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation [74.89981179257194]
LongProc (Long Procedural Generation)は、Long-Context Language Model (LCLM) を評価するための新しいベンチマークである。
LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。
我々はLongProc上の17個のLCLMを3つの難易度で評価し、最大出力トークン数が500, 2K, 8Kと設定されている。
論文 参考訳(メタデータ) (2025-01-09T18:16:55Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - RULER: What's the Real Context Size of Your Long-Context Language Models? [23.220973811374225]
我々は、長文言語モデル(LM)を評価するための新しいベンチマークを作成する。
我々はRULERにおける13のタスクを含む17の長文LMを評価した。
ほぼ全てのモデルは、コンテキスト長が増加するにつれて大きなパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-04-09T23:41:27Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models [25.74741863885925]
本稿では,現実的な会議支援シナリオに着目した長文LLMのための新しいベンチマークを提案する。
当社のベンチマークであるELITR-Benchは、既存のERLITRコーパスを拡張し、271の質問を手作業で行うことで、真真正な回答を与えています。
ELITR-Bench上の12個の長文LLMによる実験により、プロプライエタリモデルとオープンモデルの両方の世代間で進行が確認された。
論文 参考訳(メタデータ) (2024-03-29T16:13:31Z) - LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。
また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文 参考訳(メタデータ) (2024-01-25T19:57:00Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。