論文の概要: NoLiMa: Long-Context Evaluation Beyond Literal Matching
- arxiv url: http://arxiv.org/abs/2502.05167v2
- Date: Wed, 26 Mar 2025 13:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 14:57:01.184608
- Title: NoLiMa: Long-Context Evaluation Beyond Literal Matching
- Title(参考訳): NoLiMa:リテラルマッチングを超えた長期評価
- Authors: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze,
- Abstract要約: NoLiMaは、NIAHテストを拡張したベンチマークである。
干し草の山の中に針を見つけるためには、潜伏関係を推測するモデルが必要である。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12のポピュラーな大言語モデルを評価する。
- 参考スコア(独自算出の注目度): 100.00398424275501
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent large language models (LLMs) support long contexts ranging from 128K to 1M tokens. A popular method for evaluating these capabilities is the needle-in-a-haystack (NIAH) test, which involves retrieving a "needle" (relevant information) from a "haystack" (long irrelevant context). Extensions of this approach include increasing distractors, fact chaining, and in-context reasoning. However, in these benchmarks, models can exploit existing literal matches between the needle and haystack to simplify the task. To address this, we introduce NoLiMa, a benchmark extending NIAH with a carefully designed needle set, where questions and needles have minimal lexical overlap, requiring models to infer latent associations to locate the needle within the haystack. We evaluate 12 popular LLMs that claim to support contexts of at least 128K tokens. While they perform well in short contexts (<1K), performance degrades significantly as context length increases. At 32K, for instance, 10 models drop below 50% of their strong short-length baselines. Even GPT-4o, one of the top-performing exceptions, experiences a reduction from an almost-perfect baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the increased difficulty the attention mechanism faces in longer contexts when literal matches are absent, making it harder to retrieve relevant information. We publicly release the dataset and evaluation code at https://github.com/adobe-research/NoLiMa.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、128Kから1Mトークンまでの長いコンテキストをサポートする。
これらの能力を評価するための一般的な方法として、ニードル・イン・ア・ヘイスタック(NIAH)テストがある。
このアプローチの拡張には、イントラクタの増加、ファクトチェーン、コンテキスト内推論などが含まれる。
しかし、これらのベンチマークでは、モデルが針と干し草のスタックの間の既存のリテラルマッチングを利用してタスクを単純化することができる。
そこで本研究では, NIAH を拡張したベンチマークである NoLiMa を導入し, 質問や針の重なりが最小限に抑えられている。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12の人気のあるLCMを評価した。
短いコンテキスト(1K)ではよく機能するが、コンテキストの長さが増加するにつれて性能は著しく低下する。
例えば32Kでは、10台のモデルが長短のベースラインの50%以下に落ちている。
最も優れた例外の1つであるGPT-4oでさえ、ほぼ完全なベースラインの99.3%から69.7%に減少している。
分析の結果,リテラルマッチングが欠如している場合,注意機構が長時間のコンテキストで直面する困難が増加し,関連情報の検索が困難になることが示唆された。
データセットと評価コードはhttps://github.com/adobe-research/NoLiMaで公開しています。
関連論文リスト
- Can LLMs reason over extended multilingual contexts? Towards long-context evaluation beyond retrieval and haystacks [22.859955360764275]
MLRBenchは多言語長文推論のための合成ベンチマークである。
並列性があり、リークに耐性があり、任意のコンテキスト長に対してスケーラブルであるように設計されている。
論文 参考訳(メタデータ) (2025-04-17T11:02:35Z) - Sequential-NIAH: A Needle-In-A-Haystack Benchmark for Extracting Sequential Needles from Long Contexts [23.076558892985986]
本研究では,長期の文脈から逐次情報を抽出する大規模言語モデルの能力を評価するためのベンチマークであるSequential-NIAHを紹介する。
ベンチマークには、長さ8Kから128Kトークンまでのコンテキストと、14,000のサンプル(テスト用に2000が予約されている)のデータセットが含まれている。
論文 参考訳(メタデータ) (2025-04-07T03:50:12Z) - Pause-Tuning for Long-Context Comprehension: A Lightweight Approach to LLM Attention Recalibration [4.7429246847107835]
本稿では,長文入力の理解を深めるために注意を喚起する手法である停止チューニングを導入する。
提案手法では,ポーズトークンを人工的に挿入したデータセット上での言語モデルを微調整する。
本稿では,Needle-in-a-Haystackベンチマークを用いて,代替手法に対する停止チューニングを評価する。
論文 参考訳(メタデータ) (2025-02-01T21:47:15Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack [4.3482088816575155]
BABILongベンチマークを導入し、長い文書に散在する事実を推論する言語モデルの能力をテストする。
BABILongには、ファクトチェイン、単純な誘導、推論、カウント、リスト/セットの処理を含む、20の推論タスクの多様なセットが含まれている。
評価の結果,LLM は文脈の 10-20% しか有効に利用できず,その性能が急激に低下し,推論の複雑さが増大していることがわかった。
論文 参考訳(メタデータ) (2024-06-14T16:00:29Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - RULER: What's the Real Context Size of Your Long-Context Language Models? [23.220973811374225]
我々は、長文言語モデル(LM)を評価するための新しいベンチマークを作成する。
我々はRULERにおける13のタスクを含む17の長文LMを評価した。
ほぼ全てのモデルは、コンテキスト長が増加するにつれて大きなパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-04-09T23:41:27Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - $\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens [64.08660301017302]
現在、この長期コンテキスト機能を評価するための標準ベンチマークが欠落している。
$infty$Benchは、平均データ長が100Kを超える最初のベンチマークである。
その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。